Zalo bắt đầu nghiên cứu AI như thế nào?
Trong lĩnh vực công nghệ sẽ luôn có những làn sóng mới mà chúng tôi gọi là “disruptive” (đột phá). Khi điều đó xuất hiện, công nghệ hiện tại trở nên “irrelevant” (lạc hậu). Một ví dụ mà nhiều người biết là Yahoo, tượng đài công nghệ lừng lẫy một thời với hàng trăm triệu người dùng, chiếm vị thế tuyệt đối giai đoạn đầu của Internet, giờ biến mất không còn dấu vết.
Cũng vì thế, khi Zalo phát triển bùng nổ năm 2017, tôi bắt đầu nghĩ đến làn sóng tiếp theo có thể xóa nhòa tất cả là gì? Lúc đó, có 2 lựa chọn là crypto (tiền mã hoá) hoặc AI (trí tuệ nhân tạo), và tôi quyết định đặt cược vào AI. Lý do chính là tiềm năng ứng dụng của AI hết sức rõ ràng, còn crypto thì chưa. crypto là một công nghệ thú vị nhưng dùng để làm gì thì ít người giải thích được. Mọi người đưa ra các khái niệm như DeFi (tài chính phi tập trung), Web3 (web blockchain) nhưng cá nhân tôi không thấy thuyết phục.
Đó có lẽ là lựa chọn từ trực giác của một kỹ sư với nỗi ám ảnh bị tụt hậu khỏi dòng chảy phát triển công nghệ, còn thực tế tôi không có nhiều thông tin. Khi ra quyết định tôi cũng không tự tin, nhất là giai đoạn khoảng năm 2020 -2021, khi AI chưa có nhiều thành tựu rõ rệt thì crypto lại cực kỳ hấp dẫn.
Ngay sau thời điểm anh không chọn crypto, thị trường tiền mã hoá tăng trưởng bùng nổ thời gian dài, giúp rất nhiều người trở thành triệu phú, thậm chí tỷ phú. Anh có từng cảm thấy tiếc lựa chọn AI của mình?
Có chứ. Các quyết định kiểu như vậy sẽ khó có thể phân tích logic, mà đơn thuần là niềm tin cá nhân thôi. Khi làn sóng lên cao thì tôi cũng đặt câu hỏi: Lựa chọn của mình có đúng hay không?
Có lẽ chúng tôi cách ranh giới mỏ vàng crypto chỉ một cái gật đầu. Chuyện ít người biết, từ cuối 2017, Zalo đã mời những chuyên gia hàng đầu về crypto đến chia sẻ về công nghệ này. Giữa 2018, chúng tôi tổ chức đoàn tới thăm các đơn vị tiền mã hóa của Line và Kakao (2 sản phẩm OTT số 1 ở Nhật Bản và Hàn Quốc). Có những đơn vị sẵn sàng cung cấp trọn gói giải pháp có sẵn, chỉ cần chúng tôi đồng ý cho họ sử dụng thương hiệu để phát hành tiền mã hóa Zalo Token.
Nhưng sau đó tôi thấy rằng đa số ứng dụng của crypto đều liên quan đến tài chính – ngành mà mình không có nhiều kiến thức nền tảng. Vì thế, mọi người thành công với crypto thì tốt thôi. Cái gì mình không biết thì tốt nhất nên đứng ngoài, ngưỡng mộ và vỗ tay. Cho đến giờ, tôi vẫn chưa mua đồng crypto nào.
Còn điều khiến tôi vững tin hơn vào quyết định chọn AI là các đại công ty như Google, Facebook, Microsoft, Amazon, Apple đều không tham gia crypto nhưng lại đầu tư quyết liệt vào AI. Điều này có nghĩa là những bộ óc hàng đầu Silicon Valley đang sai và sắp trở nên lạc hậu, hoặc crypto chưa thực sự quan trọng.
Sản phẩm đầu tiên của Zalo AI là gì?
Ứng dụng đầu tiên của Zalo AI là trợ lý giọng nói tiếng Việt. Giọng nói là cách rất tự nhiên để con người diễn đạt suy nghĩ của mình. Khi chúng ta sử dụng các thiết bị như điện thoại, tốc độ gõ phím khá chậm, còn nói thì nhanh hơn nhiều. Vì thế, tôi tin rằng giọng nói sẽ là một phương pháp chính để con người trao đổi với máy móc trong tương lai.
Hơn nữa, giọng nói liên quan đến thế mạnh sẵn có của Zalo – chức năng gửi tin nhắn thoại từ thời gian đầu. Khi triển khai công nghệ mới, tốt nhất là liên quan đến lĩnh vực mà mình hiểu rõ và có thế mạnh, ví dụ như ngôn ngữ tiếng Việt. Khi đó có thể mình không giỏi hơn người ta nhưng ít nhất cũng ít kém hơn người ta. Nếu từ đầu chúng tôi đầu tư cho xử lý hình ảnh AI thì thế mạnh địa phương của mình sẽ không đủ lớn so với các công ty nước ngoài.
Vào thời điểm đó, anh có nghĩ tới việc Trợ lý giọng nói cạnh tranh với các công ty như Google sẽ rất khó hay không bởi họ rất mạnh về công nghệ kèm theo việc có được khối lượng dữ liệu khổng lồ?
Tất nhiên. Làm AI thì ngoài khó khăn nhân sự, còn 2 vấn đề nữa là máy móc phần cứng và dữ liệu huấn luyện. Google là một công ty tài nguyên vô tận, cạnh tranh với họ là vấn đề nan giải, không chỉ với Zalo AI.
Tôi có người bạn làm Tiến sĩ ở CMU (Carnegie Mellon University – trường top 1 đào tạo AI ở Mỹ) kể rằng: “Năm nào các trường đại học và tập đoàn lớn ở Mỹ cũng tổ chức nhiều cuộc thi học thuật về xử lý ngôn ngữ, nhưng thường thì mọi người đều cố gắng giành vị trí về Nhì, còn vị trí Nhất thì ai cũng biết là Google rồi.”
Xin được hỏi về khó khăn lớn nhất lúc khởi nghiệp với AI, anh tuyển dụng những nhân sự đầu tiên từ đâu?
Cũng giống như với Zalo, khi bắt đầu làm AI, tôi lục lọi từng mối quan hệ có kinh nghiệm về lĩnh vực này. Hồi trước, tôi sang Mỹ theo học bổng VEF, nên giờ đi tìm lại các Tiến sĩ bạn mình chuyên ngành AI và Machine Learning (máy học). Học bổng VEF do chính phủ Mỹ tài trợ để phát triển khoa học công nghệ cho Việt Nam thông qua đào tạo nghiên cứu sinh Tiến sĩ, có mỗi tôi “lạc loài” học Thạc sĩ thôi (cười).
Khi đi gặp các bạn học có kinh nghiệm AI ở Silicon Valley, tôi nói chuyện vui vẻ và học được nhiều điều. Thế nhưng lúc mời về để dẫn dắt Zalo AI thì sau khi suy nghĩ cẩn thận họ đều từ chối. Ngành AI cũng tương tự như OTT, đều là công nghệ world-class (đẳng cấp thế giới). Những người giỏi nhất chỉ có ở Mỹ hay Trung Quốc, và họ đều đang làm các công việc rất tốt, không lý do gì bỏ sự nghiệp đầy triển vọng, về Việt Nam làm với mình.
Bế tắc về nhân sự, tôi quyết định chọn một lãnh đạo mảng R&D cơ bản ở Zalo để bắt đầu, nhưng không tạo ra được nhiều thành tựu. May mắn là sau khoảng 3 năm, tôi gặp được một số kỹ sư trẻ rất ổn dù ít kinh nghiệm.
Năm 2020, lúc mới nói chuyện với Đạt (Nguyễn Bá Đạt, Giám đốc sản phẩm Zalo AI), tôi thấy bạn ấy rất ngây thơ. Nhưng có lẽ, sự ngây thơ không biết sợ là một thế mạnh đặc biệt của người trẻ. Càng biết nhiều càng thiếu tự tin, còn người trẻ ít va chạm thì cứ xông lên thôi. Chính những kỹ sư trẻ, ngây thơ và đầy nhiệt huyết ấy đã tạo nên xương sống cho đội ngũ của Zalo AI bây giờ.
Anh làm thế nào để dẫn dắt những bạn trẻ ít kinh nghiệm như vậy có thể phát triển những ứng dụng AI world-class, cạnh tranh được với những sản phẩm của Google hay Microsoft?
Nếu thi đấu trực tiếp hoặc chạy đua tổng lực thì khó, nhưng khi chọn lựa góc hẹp mà mình có thể làm tốt được thì vẫn có cơ hội. Với trợ lý Kiki cho ô tô, chúng tôi đã có tới gần 1 triệu lượt cài đặt dù mới chỉ ra mắt cuối 2020. Ước tính cứ 5 xe ô tô đang chạy trên đường ở Việt Nam thì có 1 xe cài Kiki, đây là ứng dụng chiếm thị phần nhanh nhất trong lịch sử của chúng tôi. Ngay cả sản phẩm cực kỳ phổ biến Android Auto thì cũng mới đạt mức 200 triệu xe trên toàn thế giới, nên con số của Kiki là rất đáng khích lệ.
Có được kết quả đó không phải bởi chúng tôi giỏi hơn Android Auto hay Apple Carplay, mà do chúng tôi đã xác định đúng nhu cầu của người dùng Việt Nam và đáp ứng thật tốt điều đó.
Đầu tiên, chúng tôi xác định trợ lý giọng nói phải xuất hiện ở nơi con người không tiện tương tác bằng tay. Ô tô là nơi như vậy bởi lúc đó tay đang bận lái xe và cách trao đổi tốt nhất là qua giọng nói. Tiếp đó, trong khi nhiều người thích làm các chức năng cao siêu, hào nhoáng cho trợ lý giọng nói, chúng tôi chỉ tập trung vào 2 chức năng quan trọng nhất mà hầu hết mọi người đều cần khi lên ô tô là nghe nhạc và dẫn đường.
Hai chức năng đơn giản đó được tập trung đầu tư, cần cù tỉ mỉ nhiều năm, và tạo ra kết quả thực sự khác biệt trên Kiki, tốt hơn bất cứ một ứng dụng nào khác. Với kinh nghiệm vận hành Zing MP3, chúng tôi biết người Việt thích nghe những ca khúc nào, ca sĩ nào. Vì thế dù gọi sai tên của bài hát hay phát âm “ngọng” tên ca sĩ tiếng Anh thì Kiki vẫn hiểu đúng. Tương tự như vậy với bản đồ, khi chúng tôi lên danh sách từng con phố, từng địa điểm phổ biến ở các thành phố lớn khắp Việt Nam.
Trước khi phát hiện ra những điều đó với Kiki, đội ngũ Zalo AI đã trải qua những sai lầm nào và rút ra được bài học gì?
Khi bắt đầu một sản phẩm mới, chưa biết phải làm gì, mọi người thường bắt chước theo một “đại ca” nào đấy. Lúc chúng tôi làm Kiki thì có 2 trợ lý giọng nói rất thành công là Amazon Alexa và Google Assistant. Cả hai sản phẩm quốc tế này đều có rất nhiều skill (chức năng) và đội ngũ Zalo AI cũng bị cuốn vào việc cố nghĩ ra nhiều skill vui vẻ. Đây là sai lầm của chúng tôi.
Khi làm nhiều chức năng mà độ chính xác chỉ 50-60% thì không giải quyết được vấn đề gì. Người dùng sẽ thất vọng và nhanh chóng bỏ sản phẩm. Còn khi tập trung vào làm thật tốt vài chức năng chính với độ chính xác trên 95%, đó mới là cách giữ chân người dùng. Tuy nhiên, tối ưu được tới mức độ cao như vậy cực kỳ khó và thường rất chán.
Trong quá trình làm, chúng tôi có trao đổi với một số đồng nghiệp Việt Nam khác cũng làm trợ lý giọng nói. Họ rất thích việc nhân tính hóa AI, tự hào với khả năng phản hồi tự nhiên và gần gũi. Kiểu khi hỏi: “AI ơi!” thì ứng dụng sẽ trả lời: “Dạ, em nghe” thật ngọt ngào.
Ngược lại, Kiki luôn phản hồi ngắn gọn và trực tiếp. Tôi tin rằng quan trọng nhất là tập trung để trở nên hữu ích nhất với người dùng. Đó là sự khác biệt lớn giữa Zalo AI với các team AI khác. So với các ông lớn quốc tế, Zalo AI có tính địa phương hóa cao, còn so với các công ty trong nước thì chúng tôi rất thực dụng.
Những bài học này có vẻ giống với việc phát triển Zalo trước đây?
Đúng vậy. Các kỹ sư Zalo thường xuyên đề xuất làm thêm nhiều chức năng mới phục vụ người dùng, nhưng tôi thường chọn lọc rất hạn chế. Câu hỏi luôn được đặt ra là: cuối cùng, người ta chọn sử dụng Zalo để làm gì? Đó là khả năng nhắn tin, gọi điện tới bạn bè, người thân với chất lượng tốt nhất. Hầu hết những chức năng mới thêm vào không thực sự có ích. Tôi rất tâm đắc với câu nói của Steve Jobs: “Khi quản lý doanh nghiệp hay xây dựng sản phẩm, lựa chọn không làm gì cũng quan trọng ngang với lựa chọn làm gì”.
Nhịp sống thị trường