
Gemini 2.5 Pro tiếp tục được các nhà phát triển yêu thích với vai trò là mô hình tối ưu cho việc lập trình. 2.5 Flash cũng ngày càng hoàn thiện hơn với bản cập nhật mới. Bên cạnh đó, chúng tôi đang mang đến những khả năng mới cho các mô hình của mình, trong đó Deep Think - một chế độ suy luận chuyên sâu dành cho 2.5 Pro.
Tác giả Tulsee Doshi, Senior Director, Product Management, Đại diện đội ngũ Gemini
Tháng Ba vừa qua, Gemini 2.5 Pro - mô hình thông minh nhất từ trước đến nay của chúng tôi đã được ra mắt. Hai tuần trước, chúng tôi đã cung cấp sớm bản cập nhật I/O dành cho các nhà phát triển để tạo ra những web apps ấn tượng. Hôm nay, chúng tôi sẽ tiếp tục mang đến nhiều cập nhật mới cho dòng mô hình Gemini 2.5:
Không chỉ đạt hiệu suất ấn tượng trên các tiêu chuẩn đánh giá học thuật, 2.5 Pro hiện còn dẫn đầu trên bảng xếp hạng WebDev Arena và LMArena, và là công cụ hỗ trợ học tập đắc lực.
Chúng tôi đang tích hợp nhiều khả năng mới cho cả 2.5 Pro và 2.5 Flash, bao gồm tính năng xuất âm thanh trực tiếp cho trải nghiệm hội thoại tự nhiên hơn, các biện pháp bảo mật tiên tiến, cùng khả năng điều khiển máy tính từ Project Mariner. Đặc biệt, 2.5 Pro sẽ được cải thiện đáng kể nhờ Deep Think - một chế độ suy luận chuyên sâu dành cho các tác vụ toán học và lập trình phức tạp.
Chúng tôi không ngừng đầu tư vào việc nâng cao trải nghiệm cho các nhà phát triển. Cụ thể, tính năng tóm tắt suy nghĩ (thought summaries) đã được tích hợp vào cả API Gemini và Vertex AI nhằm tăng tính minh bạch. Đồng thời, chúng tôi cũng mở rộng thinking budgets - một cơ chế cho phép các nhà phát triển chỉ định mức độ sức mạnh tính toán, cho 2.5 Pro để mang lại quyền kiểm soát cao hơn, và bổ sung hỗ trợ cho các công cụ MCP trong API Gemini và SDK, giúp dễ tiếp cận nhiều công cụ mã nguồn mở.
Phiên bản 2.5 Flash hiện đã sẵn sàng cho mọi người dùng trên ứng dụng Gemini. Vào đầu tháng 6, chúng tôi sẽ tiếp tục cung cấp bản cập nhật trên Google AI Studio dành cho nhà phát triển và trên Vertex AI cho doanh nghiệp.
Những tiến bộ vượt bậc này là kết quả của sự nỗ lực không ngừng nghỉ từ đội ngũ Google nhằm cải tiến công nghệ, phát triển và triển khai chúng một cách an toàn và có trách nhiệm.
2.5 Pro hoạt động hiệu quả hơn bao giờ hết
Chúng tôi vừa cập nhật 2.5 Pro để hỗ trợ các nhà phát triển tạo ra những ứng dụng web đa dạng và dễ tương tác hơn. Chúng tôi rất vui khi nhận được phản hồi tích cực từ người dùng và các nhà phát triển và sẽ tiếp tục cải tiến dựa trên những phản hồi giá trị này.
Ngoài hiệu suất vượt trội trên các bài kiểm tra học thuật, 2.5 Pro mới hiện đang dẫn đầu bảng xếp hạng lập trình phổ biến WebDev Arena với điểm ELO là 1415. Mô hình này cũng chiếm vị trí đầu tiên tại các bảng xếp hạng của LMArena - một nền tảng đánh giá mức độ yêu thích của người dùng trong nhiều tình huống khác nhau. Đặc biệt, với cửa sổ ngữ cảnh lên tới 1 triệu token, 2.5 Pro thể hiện hiệu suất vượt trội trong việc xử lý ngữ cảnh dài và hiểu video.
Nhờ việc tích hợp LearnLM – bộ mô hình được phát triển với sự cộng tác chặt chẽ cùng các chuyên gia giáo dục – 2.5 Pro nay đã trở thành mô hình dẫn đầu trong lĩnh vực học tập. Khi so sánh trực tiếp về phương pháp sư phạm và tính hiệu quả, Gemini 2.5 Pro được các nhà giáo dục và chuyên gia đánh giá cao hơn các mô hình khác trong nhiều tình huống khác nhau. Bên cạnh đó, mô hình Gemini 2.5 Pro còn thể hiện sự vượt trội so với các mô hình hàng đầu khác ở năm nguyên tắc khoa học về học tập, vốn được ứng dụng để xây dựng các hệ thống AI cho giáo dục.
Tìm hiểu thêm về cập nhật của Gemini 2.5 Pro và Trang công nghệ Gemini của chúng tôi.
Deep Think - Mô hình suy luận sâu
Trong quá trình khám phá các giới hạn về năng lực tư duy của Gemini, chúng tôi đã bắt đầu thử nghiệm một chế độ suy luận nâng cao mang tên Deep Think. Chế độ này ứng dụng các kỹ thuật nghiên cứu tiên tiến, cho phép mô hình cân nhắc nhiều giả thuyết khác nhau trước khi đưa ra phản hồi cuối cùng.
2.5 Pro Deep Think đạt điểm số ấn tượng trên 2025 USAMO, vốn được xem là một trong những bài kiểm tra toán học khó nhất hiện nay. Không chỉ vậy, mô hình này còn dẫn đầu LiveCodeBench, một chuẩn đánh giá khắt khe dành cho lập trình cấp độ thi đấu, đồng thời đạt 84.0% trên MMMU, bài kiểm tra khả năng suy luận đa phương thức.

Để khai phá những giới hạn mới về khả năng với 2.5 Pro DeepThink, chúng tôi đã dành thêm thời gian để thực hiện các đánh giá an toàn chuyên sâu và tiếp nhận góp ý từ các chuyên gia. Theo đó, chúng tôi sẽ cấp quyền truy cập công cụ này cho một số đối tác thử nghiệm đáng tin cậy thông qua Gemini API để thu thập phản hồi trước khi phát hành rộng rãi.
Phiên bản 2.5 Flash được nâng cấp tốt hơn
2.5 Flash là mô hình hiệu quả được tối ưu hóa về tốc độ và chi phí. 2.5 Flash hiện đã được cải tiến đáng kể trên hầu hết các khía cạnh. Mô hình này cho thấy hiệu suất vượt trội trên các tiêu chí quan trọng về suy luận, đa phương thức, lập trình và ngữ cảnh dài, đồng thời còn trở nên hiệu quả hơn khi sử dụng ít hơn 20-30% token trong các đánh giá của chúng tôi.

Phiên bản 2.5 Flash mới hiện đã có sẵn để dùng thử cho nhà phát triển trên Google AI Studio, cho doanh nghiệp trên Vertex AI và cho người dùng trên ứng dụng Gemini. Dự kiến vào đầu tháng 6, mô hình này sẽ được cung cấp rộng rãi cho việc phát triển ứng dụng.
Để biết thêm chi tiết, vui lòng tham khảo bản mô tả mô hình Gemini 2.5 Pro mới nhất và trang công nghệ Gemini của chúng tôi.
Các tính năng mới trong Gemini 2.5
Đầu ra âm thanh tự nhiên và cải tiến Live API
Hôm nay, bản dùng thử của tính năng tạo âm thanh trực tiếp cho hội thoại sẽ có trên Live API, giúp bạn xây dựng trải nghiệm đàm thoại tự nhiên hơn với Gemini.
Người dùng còn có thể tùy chỉnh tông giọng, ngữ điệu và kiểu nói. Ví dụ, bạn có thể yêu cầu mô hình dùng giọng điệu kịch tính khi kể một câu chuyện. Đồng thời, tính năng này còn hỗ trợ việc sử dụng công cụ để thực hiện tìm kiếm theo yêu cầu của bạn.
Bạn có thể thử nghiệm một số tính năng ban đầu, bao gồm:
Hội thoại cảm xúc: Mô hình có thể nhận diện cảm xúc trong giọng nói của người dùng và phản hồi phù hợp.
Âm thanh chủ động: Mô hình sẽ bỏ qua các cuộc trò chuyện nền và biết khi nào cần phản hồi.
Tư duy trong Live API: Mô hình tận dụng khả năng tư duy của Gemini để hỗ trợ các tác vụ phức tạp hơn.
Chúng tôi cũng đang ra mắt các bản dùng thử mới cho tính năng chuyển văn bản thành giọng nói trong phiên bản 2.5 Pro và 2.5 Flash. Đây là lần đầu tiên chúng tôi hỗ trợ đa giọng nói, cho phép chuyển văn bản thành tiếng nói với hai giọng khác nhau thông qua đầu ra âm thanh tự nhiên.
Tương tự như hội thoại âm thanh tự nhiên, tính năng chuyển văn bản thành giọng nói có khả năng biểu đạt tốt, và có thể nắm bắt những sắc thái tinh tế nhất, ví dụ như tiếng thì thầm. Nó hoạt động với hơn 24 ngôn ngữ và có thể chuyển đổi mượt mà giữa chúng.
Tính năng chuyển văn bản thành giọng nói sẽ được tích hợp vào Gemini API hôm nay.
Khả năng điều khiển máy tính
Chúng tôi đang tích hợp khả năng điều khiển máy tính của Project Mariner vào Gemini API và Vertex AI. Các công ty như Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company và Cartwheel đang khám phá tiềm năng của khả năng này. Chúng tôi rất hào hứng khi sẽ triển khai rộng rãi hơn cho các nhà phát triển thử nghiệm vào mùa hè này.
Bảo mật tốt hơn
Chúng tôi đã tăng cường đáng kể khả năng phòng vệ trước các nguy cơ về bảo mật, đặc biệt là những cuộc tấn công chèn lệnh gián tiếp - hình thức các hướng dẫn độc hại được nhúng vào dữ liệu mà mô hình AI truy xuất. Phương pháp bảo mật mới đã gia tăng đáng kể tỷ lệ bảo vệ của Gemini chống lại các cuộc tấn công chèn lệnh gián tiếp trong quá trình sử dụng công cụ, đưa Gemini 2.5 trở thành dòng mô hình an toàn nhất của chúng tôi cho đến hiện tại.
Tìm hiểu thêm về những nỗ lực của chúng tôi trong lĩnh vực an toàn, trách nhiệm và bảo mật, cũng như cách chúng tôi đang cải thiện các biện pháp bảo vệ an ninh cho Gemini trên blog Google DeepMind.
Nâng cao trải nghiệm cho nhà phát triển
Thought summaries - Tóm tắt suy nghĩ
Các mô hình 2.5 Pro và Flash hiện sẽ bao gồm các bản tóm tắt suy nghĩ trong Gemini API và Vertex AI. Các bản tóm tắt suy nghĩ lấy các suy nghĩ thô của mô hình và sắp xếp chúng thành một định dạng rõ ràng với các tiêu đề, chi tiết chính và thông tin về các hành động của mô hình, chẳng hạn như khi chúng sử dụng các công cụ hỗ trợ.
Với quá trình tư duy của mô hình được sắp xếp bài bản và tinh gọn hơn, chúng tôi kỳ vọng các nhà phát triển và người dùng sẽ dễ dàng hiểu và xử lý các vấn đề hơn khi làm việc với Gemini.
Thinking budgets - Cơ chế cho phép các nhà phát triển chỉ định mức độ sức mạnh tính toán
Chúng tôi đã giới thiệu 2.5 Flash với “Thinking budgets” nhằm giúp các nhà phát triển kiểm soát chi phí thông qua việc cân bằng giữa độ trễ và chất lượng. Và đặc điểm này tiếp tục được áp dụng cho 2.5 Pro. “Thinking budgets” cho phép bạn kiểm soát số lượng token mà mô hình sử dụng để suy nghĩ trước khi đưa ra phản hồi, hoặc thậm chí vô hiệu hóa khả năng suy luận của nó.
Gemini 2.5 Pro với mức giá phải chăng dự kiến sẽ được cung cấp rộng rãi để sử dụng ổn định trong vài tuần tới, cùng với mô hình hiện tại của chúng tôi.
Hỗ trợ giao thức ngữ cảnh mô hình (MCP)
Để việc tích hợp với các công cụ mã nguồn mở trở nên dễ dàng, chúng tôi đã tích hợp hỗ trợ SDK gốc cho các định nghĩa của Giao thức Ngữ cảnh Mô hình (MCP) vào Gemini API. Song song đó, chúng tôi cũng đang nghiên cứu giải pháp triển khai máy chủ MCP và những công cụ được lưu trữ khác, nhằm hỗ trợ xây dựng các ứng dụng có khả năng tự chủ một cách thuận tiện hơn.
Chúng tôi luôn không ngừng đổi mới các cách tiếp cận để cải thiện cả mô hình lẫn trải nghiệm dành cho nhà phát triển, trong đó có việc nâng cao hiệu quả và hiệu suất. Chúng tôi cũng sẽ tiếp tục lắng nghe những ý kiến đóng góp từ cộng đồng nhà phát triển, vì vậy rất mong nhận được phản hồi từ bạn! Đồng thời, chúng tôi không ngừng đầu tư sâu rộng vào nghiên cứu nền tảng nhằm mở rộng giới hạn khả năng của Gemini. Rất nhiều điều thú vị sẽ sớm được ra mắt.
Để khám phá thêm về Gemini và những tiềm năng của mô hình này, mời bạn truy cập trang web của chúng tôi.
Không có nhận xét nào :
Đăng nhận xét