Google tiếng Việt: Tầm nhìn của chúng tôi về việc kiến tạo một trợ lý AI toàn năng

Tầm nhìn của chúng tôi về việc kiến tạo một trợ lý AI toàn năng

Thứ Tư, 21 tháng 5, 2025

Chúng tôi đang phát triển Gemini trở thành một “World model” (mô hình mô phỏng thế giới) có khả năng lập kế hoạch và hình dung những trải nghiệm mới thông qua việc mô phỏng các khía cạnh đa dạng của thế giới.

Tác giả: Demis Hassabis, CEO Google DeepMind.

Trong mười năm qua, chúng tôi đã xây dựng nhiều nền tảng quan trọng cho kỷ nguyên AI hiện đại, khởi đầu từ việc tiên phong kiến trúc Transformer - cốt lõi của các mô hình ngôn ngữ lớn ngày nay - đến việc phát triển các hệ thống tiên tiến có khả năng học hỏi và lên kế hoạch như AlphaGo và AlphaZero.

Những kỹ thuật này cũng được áp dụng để tạo ra đột phá trong điện toán lượng tử, toán học, khoa học sự sống và khám phá thuật toán. Chúng tôi không ngừng đẩy mạnh cả chiều rộng lẫn chiều sâu trong nghiên cứu cơ bản, nỗ lực tạo ra những bước tiến lớn nhằm phát triển trí tuệ nhân tạo tổng quát (AGI).

Đây chính là động lực để chúng tôi mở rộng Gemini 2.5 Pro, mô hình nền tảng đa phương thức hàng đầu của chúng tôi, hướng tới việc kiến tạo một “world model” với khả năng lập kế hoạch và tự hình dung những trải nghiệm mới mẻ thông qua việc hiểu và mô phỏng các khía cạnh phức tạp của thế giới, tương tự như cách bộ não con người hoạt động.

Trong thời gian qua, chúng tôi đã có những bước tiến vững chắc theo định hướng này, khởi đầu từ những nghiên cứu tiên phong trong việc huấn luyện các tác nhân AI chinh phục trò chơi phức tạp như Go và StarCraft, cho đến Genie 2, một công cụ đột phá có khả năng tạo ra các môi trường mô phỏng 3D, cho phép người dùng dễ dàng tương tác, chỉ với một hình ảnh đầu vào duy nhất.

Chúng ta có thể thấy những dấu hiệu ban đầu về các khả năng này trong việc Gemini vận dụng kiến thức về thế giới và khả năng suy luận để biểu diễn và mô phỏng các môi trường tự nhiên; sự hiểu biết sâu sắc của Veo về vật lý trực quan; và cách Gemini Robotics dạy robot nắm bắt đồ vật, tuân theo chỉ dẫn và thích ứng linh hoạt trong thời gian thực.

Việc phát triển Gemini thành một “world model” đóng vai trò then chốt trong quá trình kiến tạo một thế hệ AI mới, ưu việt hơn về tính tổng quát và ứng dụng thực tiễn — một trợ lý AI toàn năng. Đây là một mô hình trí tuệ nhân tạo thông minh, có khả năng thấu hiểu sâu sắc ngữ cảnh hiện tại của bạn, lên kế hoạch và thực hiện các tác vụ thay bạn theo yêu cầu, trên mọi thiết bị.

Tích hợp khả năng phát trực tiếp của Project Astra vào các sản phẩm của chúng tôi

Mục tiêu lớn nhất của chúng tôi là phát triển Ứng dụng Gemini thành một trợ lý AI toàn năng, hỗ trợ người dùng trong các công việc thường nhật, xử lý các tác vụ hành chính, gợi mở những ý tưởng thú vị, giúp nâng cao năng suất và làm phong phú đời sống.

Bước đầu tiên trong hành trình này là việc tích hợp những khả năng đã được chúng tôi thử nghiệm trong Project Astra vào năm ngoái, bao gồm khả năng phân tích video, chia sẻ màn hình và bộ nhớ.

Trong năm vừa qua, chúng tôi đã nỗ lực tích hợp những tính năng này vào Gemini Live để người dùng trải nghiệm. Bên cạnh đó, chúng tôi cũng không ngừng cải thiện và khám phá ra nhiều đột phá mới, điển hình như việc nâng cấp giọng nói đầu ra, giúp giọng nói được tự nhiên hơn, tăng cường khả năng ghi nhớ và bổ sung khả năng điều khiển máy tính.

Hiện tại, chúng tôi đang trong giai đoạn thu thập phản hồi từ những người thử nghiệm uy tín, đồng thời tích cực triển khai những tính năng này vào Gemini Live, tạo trải nghiệm mới trong Search, Live API dành cho các nhà phát triển, và các thiết bị dạng mới như kính thông minh.

Xuyên suốt quá trình phát triển, an toàn và trách nhiệm luôn là ưu tiên trong mọi hoạt động của chúng tôi. Thông qua một dự án nghiên cứu quy mô lớn gần đây, chúng tôi đã đi sâu tìm hiểu các khía cạnh đạo đức xoay quanh trợ lý AI tân tiến. Những nghiên cứu này đóng vai trò định hướng cho quá trình nghiên cứu, phát triển và triển khai sản phẩm của chúng tôi.

Phát triển AI có khả năng đa nhiệm

Với Project Mariner, chúng tôi đang nghiên cứu cách mà các khả năng tác nhân hỗ trợ người dùng xử lý nhiều công việc đồng thời. Nguyên mẫu nghiên cứu này được thiết kế để khám phá tương lai tương tác giữa con người và AI, bắt đầu từ trình duyệt.

Sau khi ra mắt Project Mariner vào tháng 12 năm ngoái, chúng tôi đã thiết lập mối quan hệ hợp tác chặt chẽ với nhóm các tester uy tín nhằm thu thập phản hồi, từ đó liên tục cải thiện các tính năng thử nghiệm.

Project Mariner hiện sở hữu hệ thống tác nhân có khả năng thực hiện đồng thời đến mười tác vụ, giúp bạn tra cứu, đặt chỗ, mua sắm, nghiên cứu và làm nhiều việc khác nhau trong cùng một thời điểm.

Phiên bản cải tiến của Project Mariner hiện đã được cung cấp cho người dùng đăng ký gói Google AI Ultra tại Mỹ. Chúng tôi đang mang tính năng này vào Gemini API, và dự kiến sẽ được ứng dụng trong nhiều sản phẩm khác của Google trong năm nay. Vui lòng tìm hiểu thêm về các khả năng tác nhân của chúng tôi trong Search và ứng dụng Gemini.

Với những bước tiến mang tính đột phá, chúng tôi đang phát triển AI ngày càng thông minh, chủ động và mạnh mẽ, hướng tới làm phong phú cuộc sống con người, thúc đẩy sự phát triển của khoa học và mở ra một kỷ nguyên khám phá mới.