Lời tựa từ CEO Google và Alphabet, ông Sundar Pichai:
Thông tin là cốt lõi cho sự tiến bộ của nhân loại. Đó là lý do vì sao trong 26 năm qua, chúng tôi tập trung vào sứ mệnh tổ chức thông tin thế giới, làm cho thông tin trở nên hữu ích và dễ tiếp cận. Đó cũng chính là lý do chúng tôi tiếp tục đẩy mạnh các giới hạn của AI nhằm tổ chức thông tin ở mọi loại đầu vào và khiến chúng dễ dàng được tiếp nhận ở mọi loại đầu ra, giúp chúng thực sự hữu ích đối với mọi người.
Đó là tầm nhìn của chúng tôi khi giới thiệu Gemini 1.0 vào tháng 12 năm ngoái. Là mô hình đầu tiên được xây dựng đa phương thức một cách tự nhiên, Gemini 1.0 và 1.5 đã thúc đẩy những tiến bộ đột phá với khả năng đa phương thức và ngữ cảnh dữ liệu dài để thông hiểu liền mạch nhiều loại thông tin khác nhau như văn bản, video, hình ảnh, âm thanh, đoạn mã, đồng thời xử lý nhiều dạng thông tin hơn.
Hiện tại, hàng triệu nhà lập trình đang phát triển sản phẩm cùng Gemini. Mô hình này cũng giúp chúng tôi nâng cấp các sản phẩm của mình, trong đó có 7 sản phẩm với 2 tỷ người dùng, đồng thời tạo ra những sản phẩm mới khác. NotebookLM là một ví dụ tuyệt vời về những gì khả năng đa phương thức và ngữ cảnh dài có thể mang đến cho mọi người, lý giải cho việc vì sao sản phẩm này được đón nhận nồng nhiệt.
Trong năm qua, chúng tôi đã dốc sức nghiên cứu về các mô hình AI tác nhân. Mô hình này có khả năng hiểu biết tốt hơn về thế giới xung quanh, tư duy trước nhiều bước, và thao tác dưới sự giám sát của bạn.
Ngày hôm nay, chúng tôi mở ra chương tiếp theo của kỷ nguyên AI với mô hình được xây dựng cho kỷ nguyên tác nhân AI: Gemini 2.0, mô hình AI mạnh mẽ nhất của Google cho đến nay. Những tiến bộ mới trong khả năng đa phương thức - như đầu ra hình ảnh và âm thanh gốc - và sử dụng công cụ gốc cho phép chúng tôi tạo nên những mô hình tác nhân AI mới và tiến gần hơn đến tầm nhìn về việc phát triển một trợ lý toàn năng.
Hiện tại, chỉ các nhà phát triển và những tester đáng tin cậy có thể thử nghiệm Gemini 2.0; và chúng tôi đang dồn hết tốc lực để tích hợp mô hình này trong các sản phẩm của mình, bắt đầu với Gemini và Tìm Kiếm. Kể từ hôm nay, người dùng Gemini đã có thể thử nghiệm mô hình Gemini Flash 2.0 của Google. Đồng thời, chúng tôi cũng ra mắt một tính năng mới có tên Deep Research - một tính năng hoạt động như trợ lý nghiên cứu để khám phá các chủ đề phức tạp và biên soạn báo cáo khoa học thay bạn thông qua việc ứng dụng khả năng suy luận nâng cao và khả năng xử lý ngữ cảnh dài. Tính năng này được tích hợp trong Gemini Advanced từ hôm nay.
Tìm Kiếm là sản phẩm được cải tiến nhiều nhất với AI cho đến hiện tại. Tính năng AI Tổng quan (AI Overviews) của chúng tôi hiện đã tiếp cận 1 tỷ người, cho phép họ đặt những câu hỏi hoàn toàn mới, nhanh chóng trở thành một trong những tính năng Tìm Kiếm phổ biến nhất từ trước đến nay. Bước tiếp theo, chúng tôi ứng dụng khả năng lập luận nâng cao của Gemini 2.0 và AI Overviews để giải quyết các chủ đề và câu hỏi phức tạp hơn, bao gồm các phương trình toán học nâng cao, truy vấn đa phương thức và viết code. Chúng tôi đã bắt đầu cuộc thử nghiệm giới hạn từ tuần này, và sẽ triển khai rộng rãi hơn vào đầu năm tới. Cũng trong năm 2025, Google sẽ tiếp tục nhân rộng AI Overviews đến nhiều quốc gia và nhiều ngôn ngữ hơn.
Những tiến bộ của Gemini 2.0 được định hình từ các đầu tư trải dài trong thập kỷ qua cùng cách tiếp cận toàn diện khác biệt của chúng tôi đối với sự đổi mới về AI. Mô hình này được xây dựng trên phần cứng tùy chỉnh như Trillium, TPU thế hệ thứ sáu của chúng tôi, hỗ trợ 100% năng lượng cho quá trình đào tạo và suy luận của Gemini 2.0. Hiện tại, Trillium đã được cung cấp rộng rãi cho các khách hàng để họ có thể phát triển các mô hình AI của riêng doanh nghiệp.
Nếu Gemini 1.0 là nền tảng cho việc sắp xếp và hiểu thông tin, thì Gemini 2.0 sẽ làm cho việc ứng dụng thông tin trở nên thiết thực và hiệu quả hơn bao giờ hết. Tôi rất mong chờ những điều mà kỷ nguyên tiếp theo này hứa hẹn mang lại.
-Sundar
Gemini 2.0: Mô hình AI mới của kỷ nguyên tác nhân AI
Ông Demis Hassabis, CEO Google DeepMind và ông Koray Kavukcuoglu, CTO Google Deepmind, đại diện đội ngũ Gemini
Trong năm vừa qua, chúng tôi đã đạt được những tiến bộ vượt bậc trong lĩnh vực trí tuệ nhân tạo. Hôm nay, chúng tôi ra mắt mô hình đầu tiên trong dòng Gemini 2.0: phiên bản thử nghiệm Gemini 2.0 Flash. Đây là mô hình chủ lực của chúng tôi, với độ trễ thấp và hiệu suất được nâng cao, minh chứng công nghệ tối tân của Google trên quy mô lớn.
Chúng tôi cũng công bố những bước tiến mới nhất trong nghiên cứu về AI tác nhân, thể hiện qua các nguyên mẫu được tạo nên nhờ khả năng đa phương thức vốn có của Gemini 2.0.
Gemini 2.0 Flash
Tiếp nối thành công của 1.5 Flash, mô hình được các nhà phát triển yêu thích nhất từ trước đến nay, Gemini 2.0 Flash mang đến hiệu suất vượt trội mà vẫn giữ được tốc độ phản hồi nhanh. Thậm chí, 2.0 Flash còn thể hiện tốt hơn cả 1.5 Pro ở nhiều tiêu chí đánh giá then chốt, với tốc độ nhanh gấp đôi. Mô hình 2.0 Flash cũng được trang bị những tính năng mới. Không chỉ hỗ trợ dữ liệu đầu vào đa phương thức như hình ảnh, video và âm thanh, 2.0 Flash giờ đây còn hỗ trợ cả kết quả đầu ra đa phương thức, chẳng hạn như tạo hình ảnh kết hợp với văn bản và chuyển văn bản thành giọng nói (Text-To-Speech) đa ngôn ngữ tùy chỉnh. Mô hình này có thể sử dụng trực tiếp các công cụ như Google Tìm kiếm, code và cả các hàm do người dùng bên thứ 3 định nghĩa ngay trong ứng dụng.
Chúng tôi đặt mục tiêu đưa các mô hình AI đến người dùng một cách an toàn và nhanh chóng. Trong tháng qua, các phiên bản thử nghiệm đầu tiên của Gemini 2.0 đã được chia sẻ và nhận phản hồi tốt từ giới nhà phát triển.
Gemini 2.0 Flash hiện đã có thể sử dụng dưới dạng mô hình thử nghiệm cho các nhà phát triển thông qua Gemini API trên Google AI Studio và Vertex AI. Tính năng đầu vào đa phương thức và đầu ra văn bản được cung cấp cho tất cả các nhà phát triển, đồng thời, các đối tác truy cập sớm có thể sử dụng tính năng chuyển văn bản thành giọng nói và tạo hình ảnh gốc. Phiên bản chính thức với nhiều kích cỡ sẽ được ra mắt vào tháng 1 năm 2025.
Để giúp các nhà phát triển xây dựng các ứng dụng đa năng và mang tính tương tác, chúng tôi cũng phát hành API Đa phương thức Trực tiếp mới, có khả năng xử lý âm thanh, video trực tiếp và khả năng sử dụng kết hợp nhiều công cụ. Thông tin chi tiết hơn về 2.0 Flash và API Đa phương thức Trực tiếp có thể được tìm thấy trong blog dành cho nhà phát triển của chúng tôi.
Mô hình Gemini 2.0 đã được tích hợp trong ứng Gemini - trợ lý AI của chúng tôi
Cũng bắt đầu từ hôm nay, người dùng Gemini trên toàn cầu có thể truy cập phiên bản thử nghiệm 2.0 Flash được tối ưu hóa cho trò chuyện bằng cách lựa chọn phiên bản này trong trình duyệt web và trình duyệt di động. Phiên bản này cũng sẽ sớm có mặt trên ứng dụng di động Gemini. Với mô hình mới này, người dùng có thể trải nghiệm một trợ lý Gemini hữu ích hơn nữa.
Đầu năm tới, chúng tôi sẽ mở rộng Gemini 2.0 sang nhiều sản phẩm khác của Google.
Khám phá những trải nghiệm chủ động cùng Gemini 2.0
Gemini 2.0 Flash sở hữu những cải tiến vượt trội như lý luận đa phương thức, thông hiểu ngữ cảnh dài, khả năng thực hiện và hoạch định kế hoạch cho các chỉ dẫn phức tạp, thực hiện hàm theo cấu trúc, sử dụng công cụ gốc và độ trễ được cải thiện. Cùng với khả năng thao tác trực tiếp ngay trên giao diện, Gemini 2.0 Flash mở ra một kỷ nguyên mới của những trải nghiệm chủ động.
Việc ứng dụng thực tế các tác nhân AI là một lĩnh vực nghiên cứu thú vị và đầy tiềm năng. Chúng tôi đang khám phá giới hạn mới này thông qua một loạt các nguyên mẫu có thể giúp người dùng giải quyết công việc và hoàn thành nhiệm vụ. Các nguyên mẫu bao gồm bản cập nhật của dự án Astra - dự án nghiên cứu khám phá các khả năng tương lai của một trợ lý AI toàn năng; dự án mới mang tên Mariner nghiên cứu về tương tác giữa con người và các tác nhân AI trong tương lai, với bước khởi đầu từ chính trình duyệt của bạn; và Jules - một tác nhân viết code được hỗ trợ bởi AI có thể là trợ thủ đắc lực cho các lập trình viên.
Tuy chỉ đang ở giai đoạn đầu phát triển, nhưng chúng tôi rất mong đợi những phản hồi về các tính năng mới này từ các tester thân cận, cũng như rút kinh nghiệm từ chính trải nghiệm của họ để từ đó có thể hoàn thiện và đưa những tính năng đến đa số người dùng trong tương lai.
Dự án Astra: Các tác nhân sử dụng hiểu biết đa phương thức trong thế giới thực
Kể từ khi giới thiệu dự án Astra tại sự kiện I/O, chúng tôi đã liên tục cải thiện dự án với những đóng góp từ các tester đáng tin cậy khi trải nghiệm trên điện thoại Android. Những phản hồi giá trị từ họ đã giúp chúng tôi hiểu rõ hơn về cách một trợ lý AI toàn năng có thể hoạt động trong thực tế, bao gồm cả những khía cạnh liên quan đến an toàn và đạo đức. Những cải tiến trong phiên bản mới nhất được xây dựng với Gemini 2.0 bao gồm:
Trò chuyện tốt hơn: Dự án Astra hiện có khả năng trò chuyện bằng nhiều ngôn ngữ, thậm chí cả khi người dùng pha trộn nhiều thứ tiếng, cùng với đó là khả năng hiểu tốt hơn giọng địa phương và các từ ít phổ biến.
Sử dụng công cụ mới: Với Gemini 2.0, Dự án Astra có thể sử dụng Google Tìm kiếm, Lens và Bản đồ, từ đó trở thành một trợ lý hữu ích hơn trong cuộc sống thường nhật của bạn.
Khả năng ghi nhớ tốt hơn: Chúng tôi đã nâng cấp khả năng ghi nhớ của Dự án Astra mà vẫn đảm bảo quyền kiểm soát của bạn. Giờ đây, nó có thể ghi nhớ đến 10 phút trong mỗi lần tương tác, đồng thời lưu lại nhiều cuộc trò chuyện trước đó với bạn, cải thiện trải nghiệm cá nhân hóa.
Độ trễ được cải thiện: Với khả năng truyền phát mới và thông hiểu âm thanh tự nhiên, tác nhân có thể hiểu ngôn ngữ với độ trễ tương đương tốc độ giao tiếp của con người.
Chúng tôi đang nỗ lực mang những tính năng này vào các sản phẩm của Google như trợ lý AI của chúng tôi - ứng dụng Gemini, và các dạng thức khác như kính. Ngoài ra, chúng tôi cũng bắt đầu mở rộng chương trình thử nghiệm đến nhiều tester hơn, trong đó có một nhóm nhỏ sẽ được trải nghiệm Dự án Astra trên kính thông minh.
Dự án Mariner: Các tác nhân có thể giúp bạn hoàn thành những tác vụ phức tạp
Dự án Mariner là một nguyên mẫu nghiên cứu thử nghiệm được xây dựng trên nền tảng Gemini 2.0, nhằm khám phá tương tác giữa người và các tác nhân trong tương lai, bắt đầu từ chính trình duyệt website của bạn. Là một nguyên mẫu nghiên cứu, Mariner có khả năng hiểu và xử lý thông tin hiển thị trên màn hình trình duyệt, từ các điểm ảnh (pixel) cho đến các thành phần khác như chữ viết, mã lệnh, hình ảnh và biểu mẫu. Từ những thông tin ấy, Mariner sẽ thực hiện các tác vụ theo yêu cầu của bạn thông qua tiện ích mở rộng thử nghiệm trên Chrome.
Trong quá trình đánh giá theo khung tiêu chuẩn WebVoyager, bộ tiêu chí kiểm tra hiệu năng của tác nhân trên các tác vụ web thực tế, Mariner đã đạt 83,5% - kết quả vận hành tối ưu nhất khi hoạt động độc lập.
Dự án Mariner đã chứng minh được tiềm năng về mặt kỹ thuật trong việc điều hướng trình duyệt dù đang ở giai đoạn bắt đầu thử nghiệm. Tuy độ chính xác và tốc độ xử lý hiện tại chưa tối ưu, nhưng những vấn đề này sẽ được khắc phục nhanh chóng trong tương lai.
Để phát triển tính năng này một cách an toàn và có trách nhiệm, chúng tôi đang chủ động nghiên cứu các rủi ro tiềm ẩn và biện pháp phòng ngừa mới, đồng thời vẫn đảm bảo quyền kiểm soát của con người. Ví dụ như Mariner chỉ có thể thực hiện các thao tác gõ, cuộn trang hoặc nhấp chuột trong tab trình duyệt đang mở, và sẽ yêu cầu người dùng xác nhận trước khi thực hiện các thao tác quan trọng như mua sắm trực tuyến.
Hiện tại, chúng tôi đã bắt đầu triển khai cho một số tester trải nghiệm thử dự án Mariner thông qua tiện ích mở rộng thử nghiệm trên trình duyệt Chrome, đồng thời tích cực trao đổi và tham khảo ý kiến từ cộng đồng phát triển web.
Jules: Các tác nhân cho những lập trình viên
Bên cạnh đó, chúng tôi cũng đang nghiên cứu cách các tác nhân AI có thể hỗ trợ lập trình viên thông qua Jules – một thử nghiệm các tác nhân chuyên về lập trình được hỗ trợ bởi AI, tích hợp trực tiếp vào quy trình làm việc trên GitHub. Jules có khả năng tiếp nhận vấn đề, tự lên kế hoạch và thực hiện các giải pháp - tất cả đều chịu sự giám sát và điều khiển của lập trình viên. Đây là một phần trong mục tiêu dài hạn của chúng tôi trong việc xây dựng các tác nhân AI hữu ích cho mọi lĩnh vực, đặc biệt là lập trình.
Để biết thêm thông tin chi tiết về thử nghiệm này, bạn có thể tham khảo bài viết trên blog dành cho lập trình viên của chúng tôi.
Các tác nhân trong Game và lĩnh vực khác
Google DeepMind có lịch sử lâu đời trong việc sử dụng game để hỗ trợ các mô hình AI thành thạo việc tuân theo quy tắc, lập kế hoạch và logic. Một ví dụ cụ thể, chỉ riêng tuần trước, chúng tôi đã giới thiệu Genie 2 - mô hình AI có thể tạo ra vô số game 3D sinh động chỉ từ một hình ảnh duy nhất. Dựa trên quy tắc này, chúng tôi đã phát triển các tác nhân sử dụng Gemini 2.0 có khả năng giúp bạn điều hướng thế giới ảo trong video game. Tác nhân này có thể suy luận màn chơi chỉ với hành động trên màn hình, từ đó đề xuất nước chơi tiếp theo trong cuộc trò chuyện trực tiếp.
Chúng tôi đang hợp tác với các nhà phát triển trò chơi hàng đầu như Supercell để khám phá cách thức hoạt động, kiểm tra khả năng giải thích quy tắc và các thử thách thông qua nhiều loại trò chơi đa dạng, từ các tựa game chiến lược như "Clash of Clans" đến các trò chơi mô phỏng nông trại như "Hay Day".
Không chỉ đóng vai trò là người ảo chơi cùng, các tác nhân này thậm chí có thể tận dụng Google Tìm Kiếm để kết nối bạn với kho kiến thức về game trên web.
Ngoài việc khai phá khả năng chủ động của tác nhân AI trong thế giới ảo, chúng tôi còn đang thử nghiệm với các tác nhân có thể hỗ trợ trong đời thực bằng cách áp dụng khả năng lập luận không gian của Gemini 2.0 vào lĩnh vực robot học. Mặc dù mới chỉ ở giai đoạn đầu, nhưng chúng tôi rất hào hứng với tiềm năng mà các tác nhân AI có thể hỗ trợ trong môi trường vật lý.
Tìm hiểu thêm về các nguyên mẫu nghiên cứu và thử nghiệm tại labs.google.
Xây dựng một cách có trách nhiệm trong kỷ nguyên tác nhân AI
Gemini 2.0 Flash và các nguyên mẫu nghiên cứu cho phép chúng tôi thử nghiệm và và cải tiến những khả năng mới nhất trong nghiên cứu AI, những khả năng này sẽ giúp các sản phẩm của Google trở nên ngày càng hữu ích.
Khi phát triển các công nghệ mới này, chúng tôi nhận thức được trách nhiệm đi kèm và nhiều câu hỏi liên quan đến tính an toàn và vấn đề bảo mật của các tác nhân AI. Đó là lý do tại sao chúng tôi đang dần dần tiếp cận và từng bước thực hiện trong quá trình phát triển, tiến hành nghiên cứu trên nhiều nguyên mẫu, triển khai huấn luyện an toàn lặp đi lặp lại, làm việc với đội ngũ tester tin cậy và các đối tác chuyên gia, đồng thời thực hiện đánh giá rủi ro, đánh giá an toàn và bảo đảm kỹ lưỡng.
Ví dụ:
Là một phần trong quy trình đảm bảo an toàn, chúng tôi đã hợp tác với Ủy ban Trách nhiệm và An toàn (RSC), nhóm đánh giá nội bộ có thâm niên, để xác định và nắm bắt các rủi ro tiềm ẩn.
Khả năng lập luận của Gemini 2.0 đã tạo ra những tiến bộ lớn trong phương pháp tấn công giả lập hỗ trợ bởi AI của chúng tôi, không dừng lại ở việc phát hiện rủi ro, mà còn tự động tạo ra các đánh giá và dữ liệu huấn luyện nhằm giảm thiểu các rủi ro đó. Điều này thể hiện chúng tôi có thể tối ưu hóa mô hình một cách hiệu quả hơn để đảm bảo an toàn ở quy mô lớn.
Khi tính đa phương thức của Gemini 2.0 làm tăng độ phức tạp của các đầu ra tiềm năng, chúng tôi sẽ tiếp tục đánh giá và huấn luyện mô hình dựa trên hình ảnh và âm thanh đầu vào cũng như đầu ra nhằm cải thiện mức độ an toàn.
Với Dự án Astra, chúng tôi đang khám phá các biện pháp giảm thiểu khả năng người dùng vô tình chia sẻ thông tin nhạy cảm với tác nhân. Chúng tôi đã tích hợp các công cụ kiểm soát quyền riêng tư giúp người dùng dễ dàng xóa các phiên làm việc và sẽ tiếp tục nghiên cứu thêm các phương pháp để đảm bảo tác nhân AI hoạt động như những nguồn thông tin đáng tin cậy, không thay mặt người dùng thực hiện các hành động ngoài ý muốn.
Với Dự án Mariner, chúng tôi đang nỗ lực đảm bảo các mô hình học được cách ưu tiên hướng dẫn cho người dùng hơn là các nỗ lực tiêm lệnh từ bên thứ ba, nhằm nhận diện những câu lệnh có khả năng gây hại đến từ các nguồn bên ngoài và ngăn chặn việc sử dụng sai. Điều này ngăn người dùng khỏi việc bị lừa đảo và tấn công lừa đảo thông qua các phương thức như lệnh độc hại ẩn trong email, tài liệu hoặc trang web.
Chúng tôi tin rằng cách duy nhất để phát triển AI là có trách nhiệm ngay từ những bước đầu tiên. Vì vậy, chúng tôi tiếp tục ưu tiên việc đảm bảo an toàn và trách nhiệm, cũng là yếu tố then chốt trong quá trình phát triển các mô hình và tác nhân ngày càng tiến bộ.
Gemini 2.0, các tác nhân AI và những bước tiến xa hơn
Các bản phát hành hôm nay đánh dấu một chương mới cho mô hình Gemini của chúng tôi. Với sự ra mắt của Gemini 2.0 Flash và các nguyên mẫu nghiên cứu khám phá những khả năng tác động, chúng tôi đã đạt đến một cột mốc thú vị trong kỷ nguyên Gemini. Chúng tôi rất mong chờ được tiếp tục khám phá một cách an toàn tất cả những khả năng mới trong quá trình xây dựng, phát triển hướng tới AGI.
Không có nhận xét nào :
Đăng nhận xét