Monday, January 1, 2018

Hiểu sâu về trí tuệ nhân tạo & Machine Learning tại Apple

Nhiều khả năng, thước đo chính xác nhất cho sự tiến bộ của Machine Learning tại Apple đến từ cộng cuộc mua lại AI quan trọng nhất từ trước đến nay, Siri. cỗi nguồn của Siri chính là chương trình DARPA tham vọng hệ trọng đến các trợ lý sáng ý. Sau đó, 1 số scientists đã thành lập công ty riêng, dùng chương trình DARPA để phát triển thành ứng dụng. Steve Jobs đã tự mình thuyết phục những người sáng lập bán DARPA lại cho Apple vào năm 2010 và trực tiếp đưa Siri vào hệ thống điều hành. Sau đó, màn ra mắt của Siri chính là điểm nhấn trong sự kiện ban bố iPhone 4S (10/2011). Giờ đây, cách thức hoạt động của Siri đã tiền tiến đến nỗi users không cần phải kích hoạt nó bằng nút home hay thậm chí không cần nói “Hey, Siri” (1 tính năng tận dụng công nghệ Machine Learning, giúp iPhone nghe ngóng được thông báo mà không hao tốn pin). Trí thông minh của Siri đã được tích hợp vào Apple Brain và tự hoạt động dù users không trực tiếp mở lời ra lệnh.

 

 

Eddy Cute chỉ ra 4 nguyên tố cốt lõi của Siri chính là: nhận mặt giọng nói (để hiểu được thời khắc nào bạn nói chuyện với Siri), khả năng hiểu tiếng nói thiên nhiên (để nắm bắt những gì bạn đang nói), execution (để thực hành truy nã hoặc request) và phản hồi (để trả lời lại với bạn). “Machine Learning có sức ảnh hưởng đáng kể đến vơ các nguyên tố đó” – Eddy Cue nói.


Tom Gruber – Trưởng Bộ phận Phát triển Siri Cấp Cao (hình trên) và Alex Acero – Chuyên viên nghiên cứu Giọng nói (hình dưới)

Tom Gruber – người đến với Apple thông qua thương vụ xác nhập trên (các đồng sáng lập cùng thời với Gruber rời đi sau năm 2011) cho rằng thậm chí trước khi Apple ứng dụng neural nets vào Siri thì quy mô user base của Apple đã cung cấp nguồn dữ liệu dùng để “huấn luyện” các nets về sau. “Steve Jobs nói rằng tôi đang có 1 bước ngoặt lớn, từ 1 người đi đầu, 1 ứng dụng đến với hàng trăm triệu users mà không hề sở hữu 1 chương trình beta nào. Cứ thế, bạn bất chợt sở hữu rất nhiều users. Users sẽ nói với bạn cách mọi người bàn tán về những gì thích hợp với vận dụng của bạn. Đây chính là bước phát triển trước tiên. Và sau đó, neural networks đã xuất hiện”

Quá trình chuyển đổi sang neural net xử lý nhận diện giọng nói của Siri được thực hiện khi rất nhiều chuyên gia AI gia nhập Apple, trong đó có Alex Acero. Acero đã bắt đầu sự nghiệp với nhận diện giọng nói tại Apple trong những năm đầu 90 và sau đó dành nhiều năm làm việc tại Microsoft Research. “Tôi rất yêu thích công việc đó và đã xuất bản nhiều bài viết. Nhưng khi Siri ra đời, tôi nhận ra: Đây là cơ hội để biến các deep neural networks thành hiện thực, không phải là thứ hàng trăm người sẽ đọc, mà là thứ được hàng triệu người sử dụng”. Nói cách khác, Alex Acero là 1 kiểu scientist mà Apple đang từng – tối ưu hóa sản phẩm hơn là tụ tập vào publishing.

Khi Acero đến “nhà táo” cách đây 3 năm, Apple vẫn đang cấp giấy phép cho hầu hết công nghệ giọng nói cho Siri từ bên thứ 3. Federighi bảo đây là 1 pattern mà Apple nghiên cứu liên tục. “Khi 1 lĩnh vực công nghệ có đóng góp quan trọng cho sản phẩm trong thời kì dài, chúng tôi sẽ xây dựng đội ngũ in-house để truyền tải được kinh nghiệm mà user muốn. Để tạo ra 1 sản phẩm tuyệt trần, chúng tôi muốn sở hữu và đổi mới công nghệ đó hơn nữa bằng nguồn lực nội bộ. Speech là 1 ví dụ ngoại lệ khi chúng tôi áp dụng các tài nguyên bên ngoài có sẵn, nhờ đó đạt được hiệu quả tốt ngay từ đầu”

Từ đây, team bắt đầu huấn luyện neural net để thay thế nguyên bản của Siri. “Chúng tôi có GPU (graphics processing unit microprocessor – 1 bộ vi xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho bộ vi xử lý trọng điểm CPU) lớn nhất và tệ nhất… Và rất nhiều dữ liệu”. Lần ra mắt của Siri vào 7/2014 đã cho thấy quờ hoạt động đó không hề vô ích.

“Tỷ lệ mắc lỗi của Siri giảm… hồ hết là nhờ deep learning và cách chúng tôi tối ưu deep learning – không chỉ nhờ chính thuật toán mà còn nhờ context của toàn bộ sản phẩm end-to-end”

Nói về “end-to-end”, Apple không phải là công ty trước tiên dùng DNNs trong nhận diện giọng nói. Nhưng bằng cách kiểm soát hết thảy hệ thống delivery, Apple lại có lợi thế riêng. Vì Apple tự tạo chips riêng nên Acero có thể làm việc trực tiếp với hàng ngũ thiết kế silicon và các kĩ sư viết firmware cho các thiết bị để tối ưu hiệu suất của neural net. Nhu cầu của Siri team thậm chí còn ảnh hưởng đến thiết kế của iPhone.

“Không chỉ là silicon” – Federighi san sớt – “Đó chính số lượng những microphones chúng tôi đặt trong thiết bị, là nơi chúng tôi đặt microphones. Cách chúng tôi điều chỉnh hardware, những mics đó và software stack xử lý audio. Chúng trở thành những mảnh ghép gắn kết với nhau – 1 lợi thế không tưởng so với các doanh nghiệp phải xây dựng 1 vài phần mềm nào đó, và chỉ biết ngồi xem chuyện sẽ xảy đến”.

Một góc cạnh khác: Khi 1 Apple neural net hoạt động trong 1 sản phẩm, nó có thể trở nên 1 công nghệ mấu chốt sử dụng cho những mục đích khác. vì vậy, khi Machine Learning tương trợ Siri thấu hiểu user, Machine Learning đã trở thành phương tiện dùng để xử lý chính tả thay thế cho typing. Hệ quả là, users nhận ra thông điệp và emails của họ trở nên mạch lạc hơn nếu họ không sử dụng bàn phím mềm; dần dần, users sẽ nhấn vào microphone key và chuyện trò nhiều hơn.

nhân tố thứ 2 của Siri mà Eddy Cue đề cập chính là khả năng hiểu được ngôn ngữ tự nhiên (natural language understanding). Siri bắt đầu sử dụng Machine Learning để hiểu được hoài vọng của người dùng kể từ tháng 11/2014 và ra mắt 1 phiên bản học sâu hơn 1 năm sau đó. thời khắc Siri sở hữu tính năng nhận mặt giọng nói thì Machine Learning đã có kinh nghiệm trong việc phiên dịch các dòng lệnh linh hoạt hơn. Eddy lấy iPhone của mình ra, kích hoạt Siri làm tỉ dụ. “Thông qu ứng dụng Square Cash, gửi đến Jane 20 dollars”. Màn hình lúc này sẽ phản ảnh tuốt request của Cue. Eddy Cue thử 1 lần nữa, nhưng thay đổi ngôn từ 1 chút. “Bắn 20 bucks đến vợ của tôi”. Kết quả vẫn rưa rứa.

Nếu không có các tiến bộ về Siri, Apple sẽ không thể liên tiếp ra mắt Apple TV – thiết bị nổi trội với tính năng quản lý giọng nói tân tiến. Tuy các phiên bản trước đây của Siri yêu cầu bạn nói 1 cách hạn chế thì phiên bản supercharged-nhờ-deep-learning không chỉ mang đến những lựa chọn chuyên biệt từ rất nhiều catalog về movies và bài hát, mà còn giải quyết các concepts như: Hãy cho tôi 1 bộ phim kinh dị có Tom Hanks (Nếu Siri thật sự sáng dạ, nó sẽ trả về kết quả The Da Vinci Code). “Trước khi có công nghệ supercharged-nhờ-deep-learning, bạn sẽ không thể cung cấp được tính năng này” – Federighi đề cập.

Với iOS 10, được ra mắt vào mùa thu năm nay, giọng nói của Siri đã trở thành nguyên tố rốt cuộc trong 4 yếu tổ được chuyển đổi bởi machine learning. Về thực chất, dấu ấn của Siri đến từ database gồm các bản thu thanh thu thập được tại voice center; mỗi câu nói là sự chắp vá từ các bản ghi âm này. Theo Gruber, Machine Learning khiến mọi thứ trở thành mượt mà hơn và giúp âm thanh Siri giống người thực hơn.

Acero đã thực hành 1 phiên bản demo đâu tiên hao hao giọng của Siri với các yếu tố robot thân thuộc. Phiên bản này sẽ hỏi bạn bằng 1 chất giọng hấp dẫn trôi chảy: “Hi, tôi có thể làm được gì cho bạn?”. Điểm khác biệt ở đây là gì? Chính deep learning!

dù rằng chỉ là 1 chi tiết nhỏ, nhưng khi sở hữu 1 giọng nói thiên nhiên hơn, Siri có thể đem đến những dị biệt lớn. “Mọi người sẽ thấy tin tức hơn nếu giọng nói có chất lượng cao hơn. Giọng nói càng cuốn người dùng thì càng khiến users dùng nhiều, góp phần tăng hiệu ứng hồi lại (return effect)”

Việc dùng Siri cũng như thực hiện những cải tiến trên Machine Learning của Apple càng có nhiều ý nghĩa hơn khi chung cuộc, Apple cũng mở Siri cho lập trình viên. Tuy nhiên với các chuyên gia thì quy trình này vẫn xảy ra quá muộn vì số lượng đối tác Siri bên thứ 3 mà Apple sở hữu chỉ dừng lại vài chục, trong khi Alexa của Amazon đã có hơn 1000 “kỹ năng” được cung cấp bởi các lập trình viên bên ngoài. Apple lại cho rằng điều này không kéo dài vì users của Amazon phải sử dụng tiếng nói riêng để tiếp cận các kĩ năng đó. Theo Apple, Siri sẽ tích hợp những thứ như SquareCash hoặc Uber 1 cách tự nhiên hơn (1 đối thủ khác, Viv - được 1 vị đồng sáng lập Siri tạo nên – cũng hẹn quy trình tích hợp chặt đẹp dù chưa công bố ngày ra mắt cụ thể)

Cùng lúc đó, Apple cũng thông báo rằng những cải tiến của Siri đang dần tạo ra sự dị biệt nhờ vào những tính năng mới hoặc thu được các kết quả tốt hơn từ những truy vấn thân thuộc. “Số lượng requests vẫn đang tăng và tăng. Tôi nghĩ Apple đang thực hiện tốt hơn công việc truyền thông sờ soạng những gì chúng tôi làm. tỉ dụ, tôi thích thể thao và bạn có thể hỏi Siri ai là người mà nó nghĩ sẽ chiến thắng trận bóng, nó sẽ trả lại cho bạn 1 đáp án. Tôi còn không biết là Apple có thể làm được điều đó nữa cơ!” – Eddy Cue san sẻ.

Có thể vấn đề lớn nhất khi Apple hài lòng Machine Learning chính là cách để đạt được thành công dù vẫn cam kết những nguyên tắc bảo mật người dùng. Apple đã mã hóa thông báo users để không ai, kể cả các trạng sư của Apple có thể đọc được (kể cả FBI dù có lệnh nhà đá từ tòa án). Apple cũng không hề thu thập thông tin người dùng nhằm mục đích lăng xê.

dĩ nhiên đứng từ góc độ người dùng thì rất đáng khen nhưng sự nghiêm trang quá mức của Apple với vấn đề bảo mật này vẫn chưa mang lại hiệu quả trong việc lôi kéo các tuấn kiệt AI về với công ty. “tuốt luốt những gì mà các chuyên gia Machine Learning mong muốn đó chính là dữ liệu” – 1 viên chức cũ của Apple, hiện đang làm cho công ty về AI cho biết – “Nhưng vì lập trường bảo mật mà Apple thường lặng thầm làm mọi thứ. Bạn có thể sẽ tự hỏi liệu đó có phải là điều đúng đắn nhưng cũng chính điều đó khiến Apple trở thành lừng danh vì đã không trở nên những kẻ chạy đua theo công nghệ AI”

Quan điểm này bị các nhà điều hành của Apple bàn cãi rất nhiều vì họ cho rằng: vẫn có thể lấy được quờ quạng các dữ liệu và tận dụng mạnh mẽ phương tiện Machine Learning mà không cần phải giữ thông báo cá nhân chủ nghĩa của users trên cloud, thậm chí cũng không cần lưu lại hành vì của user để huấn luyện cho neural nets.

Có 2 vấn đề ở đây. Thứ nhất, chính là việc xử lý thông báo cá nhân chủ nghĩa trong các hệ thống dựa trên Machine Learning. Khi thông báo chi tiết về 1 user được thu gom qua hệ thống xử lý neural-net, chuyện gì sẽ xảy ra với thông báo đó? Thứ hai, việc thu thập thông tin đòi hỏi phải huấn luyện các neural-nets nhận diện hành vi. Nhưng làm thế nào để làm được điều đó mà không thu thập thông báo cá nhân chủ nghĩa của users?

Apple đã có câu đáp cho cả 2 vấn đề. “Một số người nhận thức được chúng tôi không thể thực hành những điều này với AI vì chúng tôi không có data. Nhưng chúng tôi đã tìm ra cách để lấy dữ liệu mà chúng tôi cần nhưng vẫn giữ được tính bảo mật. Đó chính là điểm mấu chốt”

Apple đã giải quyết vấn đề trước nhất – bảo vệ sở thích và thông báo cá nhân chủ nghĩa mà neural nets đã nhận diện được – bằng cách tận dụng khả năng quản lý cả phần mềm và phần cứng độc quyền. Nói 1 cách đơn giản, đó chính là Apple Brain. “Chúng ta giữ lại 1 vài thông báo mẫn cảm nhất khi Machine Learning quét qua hết thảy thiết bị” – Federighi nói. tỉ dụ, Federighi cứ liệu các suggestions ứng dụng, icons xuất hiện khi bạn quét sang phải cũng chính những ứng dụng mà bạn định sẽ mở ra tiếp theo. Các dự đoán như thế được hình thành dựa trên rất nhiều nhân tố và rất nhiều trong số chúng can hệ đến hành vi của riêng người dùng. Theo Federighi, 90% thời kì con người dùng để tìm những gì họ muốn nhờ các những suggestions.

thông báo khác mà Apple lưu trữ trên các thiết bị có thể là dữ liệu mang tính cá nhân nhất mà Apple thu thập được: những từ ngữ mà users gõ bằng bàn phím iPhone QuickType standard. Nhờ có hệ thống neural network theo dõi thời điểm bạn gõ chữ, Apple sẽ phát hiện được các events và items chính như thông báo chuyến bay, số liên lạc và lịch hẹn – nhưng các thông báo đó lại nằm trong điện thoại của bạn. Thậm chí trong các backups lưu trên cloud của Apple, thông báo được gạn lọc để backup không thể đụng đến. “Chúng tôi không muốn thông báo đó được lưu trữ trong servers của Apple. Một tổ chức như Apple không có nhu cầu tìm hiểu về nếp của bạn hay địa điểm bạn sẽ đến”

Apple cũng nỗ lực giảm số lượng thông báo được giữ lại. Federighi đề cập đến ví dụ như sau: khi bạn có 1 cuộc đối thoại và ai đó nói đến 1 thuật ngữ có thể trở thành từ khóa lớp tiềm năng, các doanh nghiệp khác sẽ phải phân tích tuốt luốt cuộc hội thoại trong cloud để nhận mặt những thuật ngữ đó nhưng 1 thiết bị Apple có thể nhận mặt được chúng mà không cần phải lấy data ra khỏi quyền sở hữu của người dùng. Hệ thống của Apple sẽ liên tục cỡ các kết quả hiệp theo knowledge base (thông tin chung) trong điện thoại (1 phần của “brain” 200 megabyte)

“Thao tác này rất gọn nhẹ nhưng được thực hiện xuyên suốt knowledge basse, với hàng trăm ngàn locations và entities….” tuốt tuột ứng dụng của Apple đều sử dụng knowledge base (thông tin chung) như app tìm Spotlight, Maps và Safari. Knowledge base còn tương trợ cả auto-correct.

Nhưng liệu những quy định bảo mật nghiêm ngặt của Apple có gây trở lực cho các thuật toán neural net hay không – đó chính là vấn đề thứ 2 đã được đề cập trước. Neural nets cần 1 lượng lớn dữ liệu để được train đầy đủ, chuẩn xác. Nếu Apple không can thiệp vào hành vi của quơ người dùng, vậy làm sao để lấy được dữ liệu đó? Như nhiều công ty khác đã làm, Apple huấn luyện nets của mình trên các tập thông báo công khai có sẵn (tỉ dụ như bộ thông tin gồm các stock images để nhận mặt hình ảnh). Nhưng thỉnh thoảng, nó cần nhiều thông báo chi tiết hơn hoặc cập nhật hơn, mà những thông tin này chỉ có thể đến từ user base. Apple đã rứa lấy thông tin này mà không cần biết đến users đó là ai; Apple ẩn dữ liệu, gắn nó với các mã nhận mặt tình cờ không liên kết với Apple IDs.

Bắt đầu từ iOS 10, Apple dự định sẽ tuyển 1 công nghệ khá mới tên là Differential Privacy. Công nghệ này dựa vào thông báo của đám đông và không nhận mặt bất cứ cá nhân nào. Chẳng hạn Diffential Privacy sẽ tìm các từ khóa nức tiếng mới nhất không có trong knowledge base của Apple hoặc tự vị của Apple, thường xuất hiện bất ngờ dựa trên rất nhiều đáp án can hệ đến các truy nã hoặc lượt sử dụng các emojis nào đó tăng cao. “Cách thức truyền thống mà giới công nghệ giải quyết vấn đề này chính là gửi đi mọi từ, mọi kí tự mà bạn gõ lên servers, sau đó sẽ thẩm tra tất tật và phát hiện những thông báo ham thích” – Federighi biểu đạt. “Nhờ thực hành mã hóa end-to-end, chúng tôi sẽ không làm theo cách thức truyền thống đó”. Dù Differential Privacy được phát triển trong cộng đồng research, Apple đang dần dần vận dụng nó trên diện rộng. “Chúng tôi đang thực hiện khảo sát trên 1 tỷ users” – Eddy Cue chia sẻ.

“Chúng tôi đã bắt đầu nghiên cứu công nghệ này từ nhiều năm trước và đã hoàn thành nhiều sản phẩm hay, có tính thực tế. chừng độ bảo mật của nó thực rất đáng kinh ngạc” – Federighi (sau đó anh ấy diễn tả 1 hệ thống can hệ đến các protocols mã hóa và tung đồng xu ảo mà tôi không theo dõi kịp. Về cơ bản, công nghệ này liên hệ đến việc thêm công cụ toán học vào những phần nào đó của dữ liệu để Apple có thể phát hiện các usage patterns dù không nhận diện các users cá nhân chủ nghĩa). Anh cũng đề cập đóng góp của Apple rất có giá trị đối với thế giới vì nó cho phép các scientists làm việc với quy trình implementation, từ đó có thể xuất bản bài viết về công trình cá nhân.

Rõ ràng, Machine Learning đã đổi thay các sản phẩm của Apple nhưng liệu Machine Learning có đang đổi thay Apple hay không?. Ở góc cạnh nào đó, mindset về Machine Learning tuồng như khác biệt với các tập quán xưa nay của Apple. Apple là 1 công ty kiểm soát cẩn thận trải nghiệm người dùng, kể cả các cảm biến dự đoán thao tác quét của users. Mọi thứ được thiết kế trước và được xây dựng các đoạn code 1 cách chính xác. Nhưng khi các kĩ sư áp dụng Machine Learning, họ phải lùi lại, để chính phần mềm tự khám phá các hướng giải quyết. Liệu Apple có ưng thực tế là các hệ thống Machine Learning có thể tiếp cận đến thiết kế sản phẩm?

“Thiết kế sản phẩm là cỗi nguồn của rất nhiều cuộc tranh luận nội bộ. Chúng tôi thường mang đến các trải nghiệm đã được lên kế hoạch & giám sát chu đáo, từ đó chúng tôi cs thể quản lý vớ các hướng đi mà hệ thống đang dự định tương tác với người dùng. Khi bạn bắt đầu huấn luyện 1 hệ thống dựa trên lượng dữ liệu hành vi người dùng lớn, [các kết quả xuất hiện] không nhất quyết là những gì mà 1 Apple designer chỉ định. Chúng là những gì xuất hiện từ dữ liệu”

Nhưng với Schiller, “Tuy những công nghệ này ảnh hưởng lớn đến cách thiết kế nhưng đến rốt cuộc, chúng tôi mới là người sử dụng những công nghệ này vì chúng có thể giúp chúng tôi đem đến 1 sản phẩm chất lượng hơn”

Và đây là kết luận: Apple có thể không nói rõ về những gì họ đang với Machine Learning nhưng công ty sẽ tận dụng Machine Learning nhiều nhất có thể nhằm cải thiện các sản phẩm của mình. Bằng chứng chính là “bộ não” bên trong điện thoại của bạn.

“Khách hàng thường nhật đang trải nghiệm deep learning mỗi ngày [và đây chính là ví dụ] cho thấy tại sao bạn lại yêu mến 1 sản phẩm nào đó của Apple. [Ví dụ] ham thích nhất chính là deep learning khôn khéo đến nỗi bạn thậm chí còn không biết về nó cho đến lần thứ 3 khi thấy nó, bạn sẽ dừng lại và tự hỏi: Điều gì đang xảy ra?”

Đào tạo lập trình Java

No comments:

Post a Comment