Google tiếng Việt: Bước đột phá của Gemini: nhanh hơn, cửa sổ ngữ cảnh dài hơn và có thêm tác nhân AI

Bước đột phá của Gemini: nhanh hơn, cửa sổ ngữ cảnh dài hơn và có thêm tác nhân AI

Thứ Tư, 15 tháng 5, 2024

Bài gốc: https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024

Demis Hassabis, CEO Google DeepMind, đại diện đội ngũ Gemini

Chúng tôi mang đến một loạt cập nhật trên các mô hình Gemini, bao gồm bản 1.5 Flash mới, mô hình tùy biến nhẹ hơn nhằm ưu tiên tốc độ và hiệu quả; cùng với Project Astra, minh chứng cho tầm nhìn của chúng tôi về tương lai của trợ lý AI.

Vào tháng 12, chúng tôi đã ra mắt mô hình AI đa phương thức đầu tiên là Gemini 1.0, với 3 phiên bản: Ultra, Pro và Nano. Chỉ vài tháng sau, chúng tôi đã phát hành mô hình 1.5 Pro, với hiệu suất nâng cao và cửa sổ ngữ cảnh dài mang tính đột phá với 1 triệu mã token.

Các nhà phát triển và khách hàng doanh nghiệp đã sử dụng 1.5 Pro theo những cách đáng kinh ngạc và nhận thấy mô hình này vô cùng hữu ích nhờ cửa sổ ngữ cảnh dài, khả năng lý luận đa phương thức và hiệu suất tổng thể ấn tượng.

Từ phản hồi của người dùng, chúng tôi ghi nhận một số ứng dụng cần độ trễ và chi phí vận hành thấp hơn.

Điều này đã truyền cảm hứng cho chúng tôi tiếp tục đổi mới, vì vậy hôm nay, chúng tôi sẽ giới thiệu Gemini 1.5 Flash: mô hình nhẹ hơn 1.5 Pro, được thiết kế tập trung vào tốc độ và hiệu quả hoạt động trên quy mô lớn.

Cả 1.5 Pro và 1.5 Flash đều có sẵn ở bản xem trước công khai với cửa sổ ngữ cảnh 1 triệu mã token trên Google AI Studio và Vertex AI. Cửa sổ ngữ cảnh 2 triệu mã token có sẵn cho các nhà phát triển và khách hàng Google Cloud trong danh sách chờ.

Chúng tôi cũng sẽ công bố thế hệ mô hình AI mã nguồn mở tiếp theo, Gemma 2, và chia sẻ sơ qua về Dự án Astra, minh chứng cho tầm nhìn của chúng tôi về tương lai của các tác nhân AI phổ quát.

Thông tin cập nhật về các mô hình Gemini

1.5 Flash: Mô hình nhanh hơn và hiệu quả hơn

1.5 Flash là mô hình mới nhất trong nhóm mô hình Gemini và là mô hình Gemini nhanh nhất hỗ trợ API. 1.5 Flash được tối ưu hóa cho các tác vụ vừa nặng vừa nhiều trên quy mô lớn và có chi phí vận hành hợp lý hơn, cũng như sở hữu cửa sổ ngữ cảnh dài.

Mặc dù đây là mô hình nhẹ hơn 1.5 Pro nhưng nó có khả năng cao trong lý luận đa phương thức với lượng thông tin khổng lồ và có chất lượng ấn tượng so với dung lượng của nó. 1.5 Flash vượt trội trong việc tóm tắt, trò chuyện, chú thích hình ảnh và video, trích xuất dữ liệu từ các tài liệu và bảng biểu dài, v.v. 1.5 Flash có được khả năng này là nhờ được 1.5 Pro đào tạo thông qua một quy trình được gọi là “chưng cất”, trong đó kiến thức và kỹ năng cần thiết nhất từ mô hình lớn hơn được chuyển sang mô hình nhỏ và hiệu quả hơn.

Đọc thêm về 1.5 Flash trên trang công nghệ Gemini và tìm hiểu về tính khả dụng cũng như giá cả của 1.5 Flash. Chúng tôi sẽ sớm chia sẻ thêm thông tin chi tiết trong báo cáo kỹ thuật Gemini 1.5 cập nhật.

Mô hình 1.5 Pro còn tốt hơn nữa

Trong vài tháng qua, chúng tôi đã cải thiện đáng kể hiệu suất chung của mô hình tốt nhất 1.5 Pro. Ngoài việc mở rộng cửa sổ ngữ cảnh lên 2 triệu token, chúng tôi còn nâng cao khả năng viết mã lập trình, lập kế hoạch và lập luận logic, khả năng đối đáp, cũng như khả năng hiểu âm thanh và hình ảnh thông qua các cải tiến về dữ liệu và thuật toán.

Mô hình 1.5 Pro có tiến bộ đáng kể về điểm benchmarks, tức điểm hiệu năng trong một số lĩnh vực, như lý luận và viết mã lập trình, cũng như đạt điểm benchmark tốt nhất về phân tích hình ảnh và video, bao gồm: MMMU, AI2D, MathVista, ChartQA, DocVQA, InfographicVQA và EgoSchema.

1.5 Pro giờ đây có thể làm theo các câu lệnh ngày càng phức tạp và nhiều sắc thái, bao gồm cả những mô tả ở cấp độ sản phẩm như vai trò, định dạng và kiểu dáng. Chúng tôi đã cải thiện khả năng kiểm soát phản hồi của mô hình cho các trường hợp sử dụng cụ thể, chẳng hạn như mô phỏng phong cách phản hồi và cá tính của tổng đài viên hoặc tự động hóa quy trình công việc thông qua nhiều lệnh chức năng. Chúng tôi đã cho phép người dùng điều khiển hành vi của mô hình bằng cách cài đặt hệ thống.

Chúng tôi cũng đã bổ sung khả năng phân tích âm thanh trong API Gemini và Google AI Studio, vì vậy, mô hình 1.5 Pro hiện có thể xử lý hình ảnh và âm thanh cho các video được tải lên trong Google AI Studio.

Đọc thêm về 1.5 Pro trên trang công nghệ Gemini. Thông tin chi tiết sẽ sớm có trong báo cáo kỹ thuật Gemini 1.5 cập nhật của chúng tôi.

Cập nhật cho Gemini Nano, mô hình xử lý tác vụ nội bộ trên thiết bị

Gemini Nano đang mở rộng tính năng, ngoài việc xử lý văn bản thì nay còn bao gồm hình ảnh. Bắt đầu với Pixel, các ứng dụng sử dụng Gemini Nano với mô hình đa phương thức nay có thể tương tác thế giới theo cách thông thường, tức không chỉ thông qua văn bản mà còn thông qua hình ảnh, âm thanh và ngôn ngữ nói.

Tìm hiểu thêm về Gemini 1.0 Nano on Android

Phiên bản mới của các mô hình mã nguồn mở

Hôm nay, chúng tôi cũng chia sẻ thông tin cập nhật về Gemma, mô hình mã nguồn mở của chúng tôi, vốn được xây dựng từ cùng nghiên cứu và công nghệ mà chúng tôi dùng để tạo ra mô hình Gemini.

Chúng tôi xin giới thiệu Gemma 2.0, thế hệ mô hình mở tiếp theo của chúng tôi, hướng tới đổi mới AI có trách nhiệm. Gemma 2.0 có kiến trúc mới được thiết kế để mang lại hiệu suất và hiệu quả đột phá, đồng thời sẽ có sẵn ở nhiều phiên bản.

Nhóm mô hình Gemma đang mở rộng với PaliGemma, mô hình ngôn ngữ thị giác đầu tiên của chúng tôi, lấy cảm hứng từ PaLI-3. Chúng tôi đã nâng cấp Bộ công cụ AI tạo sinh có trách nhiệm với Bộ so sánh mô hình ngôn ngữ lớn LLM để đánh giá chất lượng phản hồi của mô hình.

Tìm hiểu thêm Developer blog

Tiến trình xây dựng các tác nhân AI phổ quát

Là một phần trong sứ mệnh của Google DeepMind nhằm xây dựng AI một cách có trách nhiệm, nhằm mang lại lợi ích cho nhân loại, chúng tôi luôn muốn phát triển các tác nhân AI phổ quát hữu ích trong cuộc sống hàng ngày. Đó là lý do hôm nay chúng tôi chia sẻ Dự án Astra: thể hiện tầm nhìn của chúng tôi về tương lai của trợ lý AI.

Để trở nên thực sự hữu ích, một tác nhân cần hiểu và phản hồi với thế giới phức tạp và năng động giống như con người; đồng thời tiếp nhận và ghi nhớ những gì nó nhìn thấy và nghe thấy để hiểu bối cảnh và thực hiện hành động. Tác nhân cũng cần phải có tính chủ động, dễ huấn luyện và mang tính cá nhân để người dùng có thể nói chuyện một cách tự nhiên mà không bị gián đoạn.

Mặc dù chúng tôi đã đạt được tiến bộ đáng kinh ngạc khi phát triển các hệ thống AI có thể hiểu thông tin đa phương thức, nhưng việc giảm thời gian phản hồi cho nội dung hội thoại là một thách thức kỹ thuật khó khăn. Trong vài năm qua, chúng tôi đã nỗ lực cải thiện cách các mô hình của chúng tôi nhận thức, suy luận và trò chuyện để mang lại tự nhiên hơn cho tốc độ và chất lượng hội thoại.

Các tác nhân này được xây dựng trên mô hình Gemini và các mô hình có nhiệm vụ cụ thể khác, đồng thời được thiết kế để xử lý thông tin nhanh hơn bằng cách mã hóa liên tục các khung hình video, kết hợp video đầu vào và giọng nói thành chuỗi sự kiện, đồng thời lưu thông tin này vào bộ nhớ đệm để truy xuất hiệu quả

Bằng cách tận dụng các mẫu giọng nói, chúng tôi cũng cải tiến các mô hình giọng nói, mang lại nhiều ngữ điệu hơn. Những tác nhân này có thể hiểu rõ hơn về bối cảnh và phản hồi nhanh chóng trong cuộc trò chuyện.

Thật dễ dàng để hình dung ra một tương lai nơi bạn sở hữu một trợ lý chuyên gia bên mình, thông qua điện thoại hoặc mắt kính. Một số tính năng này sẽ có mặt trên các sản phẩm của Google, như ứng dụng Gemini, vào cuối năm nay.

Tiếp tục khám phá

Cho đến nay, chúng tôi đã đạt được những tiến bộ đáng kinh ngạc với nhóm mô hình Gemini và chúng tôi luôn cố gắng phát triển công nghệ tiên tiến hơn nữa. Bằng cách đầu tư vào dây chuyền sản xuất đổi mới không ngừng, chúng tôi có thể tiên phong khám phá những ý tưởng mới, đồng thời mở rộng tiềm năng sử dụng của Gemini.

Tìm hiểu thêm về Gemini and its capabilities.

6 nhận xét :

vpsvndatalúc 22:06 28 tháng 6, 2024
Trong thế giới công nghệ hiện đại, việc sử dụng VPS (Virtual Private Server) đã trở thành một nhu cầu thiết yếu đối với nhiều doanh nghiệp và cá nhân. Tuy nhiên, không phải lúc nào bạn cũng cần sử dụng VPS liên tục 24/7. Đó là lý do tại sao dịch vụ Thuê VPS theo giờ
– Hourly VPS – đã ra đời, mang lại một giải pháp tiết kiệm chi phí và linh hoạt hơn.
Trả lờiXóa
Trả lời
Nhà Cái Uy Tín - Trang cá độ bóng đálúc 16:59 31 tháng 7, 2024
Lịch thi đấu, hay còn gọi là odds, là một phần quan trọng của cá cược thể thao. Đây là hệ số mà nhà cái đưa ra để người chơi có thể tính toán và đặt cược. Tỷ lệ kèo không chỉ phản ánh xác suất của các kết quả trong một trận đấu mà còn ảnh hưởng trực tiếp đến số tiền thắng cược mà người chơi có thể nhận được.
Trả lờiXóa
Trả lời
Nhà Cái Uy Tín - Trang cá độ bóng đálúc 20:58 1 tháng 8, 2024
kèo hòa trong cá độ bóng đá là một khái niệm không còn xa lạ với những người đam mê cá cược. Tuy nhiên, không phải ai cũng hiểu rõ về loại kèo này, cũng như cách đặt cược chính xác để tối ưu hóa lợi nhuận. Bài viết này sẽ giúp bạn tìm hiểu về Kèo hòa, cách thức hoạt động của nó, và những bí quyết để đặt cược hiệu quả.
Trả lờiXóa
Trả lời
Nam Duylúc 09:19 9 tháng 8, 2024
Nếu bạn đang cần tìm dịch vụ in card visit chất lượng cao tại Hà Nội, In Card Visit là sự lựa chọn hoàn hảo dành cho bạn. Chúng tôi cung cấp các dịch vụ in card visit với nhiều tùy chọn về chất liệu, kiểu dáng và thiết kế, giúp bạn tạo ấn tượng mạnh mẽ với đối tác và khách hàng. Dịch vụ của chúng tôi không chỉ đảm bảo về mặt thẩm mỹ mà còn có độ bền cao, giúp bạn tự tin khi trao đổi danh thiếp trong bất kỳ tình huống nào. Để biết thêm thông tin chi tiết, hãy tham khảo tại In Card Visit.

Chúng tôi cũng hiểu rằng giá cả là một yếu tố quan trọng khi lựa chọn dịch vụ in ấn. Vì vậy, In Card Visit luôn cung cấp bảng báo giá minh bạch và hợp lý, giúp bạn dễ dàng so sánh và đưa ra quyết định. Bạn có thể tìm hiểu thêm về các gói dịch vụ và giá cả tại Báo Giá In Card Visit. Chúng tôi cam kết mang đến cho bạn sự hài lòng với cả chất lượng sản phẩm và chi phí.
Trả lờiXóa
Trả lời
Dmcalúc 16:24 30 tháng 10, 2024
Thiết Kế Miễn Phí Khi In Lịch Tết Tại In Minh Khôi
Khách hàng sẽ được hỗ trợ thiết kế miễn phí khi đặt in lịch Tết tại In Minh Khôi, giúp tạo ra sản phẩm đẹp và ấn tượng mà không lo tốn kém chi phí.
Trả lờiXóa
Trả lời
Kien truc ATZ LUXURYlúc 16:35 30 tháng 10, 2024
Kiến trúc ATZ LUXURY
Mẫu thiết kế biệt thự 3 tầng đẹp sang trọng đẳng cấp, kiến trúc phù hợp với phần đa các gia đình Việt và là sự lựa chọn hàng đầu của nhiều chủ đầu tư.
https://atzluxury.com/thiet-ke-biet-thu-3-tang/
#atzluxury #kientrucatzluxury
Trả lờiXóa
Trả lời

Thêm nhận xét

tiếng Việt

Bước đột phá của Gemini: nhanh hơn, cửa sổ ngữ cảnh dài hơn và có thêm tác nhân AI

6 nhận xét :

Nhãn

Archive

Feed