
Tác giả: Eli Collins, VP, Google Deepmind
Giới thiệu Veo 3 và Imagen 4 cùng công cụ làm phim mới có tên là Flow.
Hôm nay, chúng tôi công bố các mô hình truyền thông tạo sinh mới nhất, đánh dấu bước đột phá. Những mô hình này có khả năng tạo hình ảnh, video và âm nhạc một cách kinh ngạc, không chỉ giúp nghệ sĩ hiện thực hóa tầm nhìn về sự sáng tạo mà còn trao quyền cho mọi người thể hiện bản thân thông qua những công cụ tuyệt vời này.
Chúng tôi tiếp tục bứt phá giới hạn trong lĩnh vực sáng tạo nội dung đa phương tiện thông qua việc ra mắt hai mô hình tạo ảnh và video mới nhất - Veo 3 và Imagen 4, mang đến những khả năng hoàn toàn mới và đột phá. Bên cạnh đó, chúng tôi cũng mở rộng truy cập vào Lyria 2, cung cấp thêm công cụ cho các nhạc sĩ thỏa sức sáng tạo. Cuối cùng, chúng tôi mời các nhà làm phim trải nghiệm Flow, công cụ làm phim bằng AI mới được hỗ trợ bởi các mô hình AI hàng đầu của Google DeepMind. Flow cho phép bạn tạo ra những thước phim điện ảnh với khả năng kiểm soát nhân vật, cảnh quay và phong cách tinh xảo hơn, giúp hiện thực hóa câu chuyện của bạn.
Chúng tôi đã hợp tác chặt chẽ với những người làm việc trong ngành sáng tạo, bao gồm các nhà làm phim, nhạc sĩ, nghệ sĩ, nhà sáng tạo nội dung YouTube để xây dựng những mô hình và sản phẩm này một cách có trách nhiệm, cũng như cung cấp cho các nhà sáng tạo những công cụ mới để khai phá tiềm năng của AI trong tác phẩm nghệ thuật của họ.
Veo 3: Video có âm thanh sống động
Veo 3, mô hình tạo video tân tiến của chúng tôi không chỉ nâng cao chất lượng so với mô hình Veo 2 mà lần đầu tiên còn có khả năng tạo video kèm âm thanh — tiếng giao thông trên nền khung cảnh đường phố, tiếng chim hót trong công viên, thậm chí cả lời thoại giữa các nhân vật.
Veo 3 thể hiện nổi bật trên mọi phương diện, từ việc tạo nội dung dựa trên gợi ý văn bản và hình ảnh cho đến khả năng mô phỏng vật lý chân thực và đồng bộ khẩu hình chính xác. Khả năng hiểu của mô hình này rất tốt; bạn có thể đưa một câu chuyện ngắn gọn trong thông qua câu lệnh (prompt), mô hình sẽ tạo ra một đoạn clip sống động dựa trên yêu cầu của bạn. Từ hôm nay, người dùng gói Ultra tại Mỹ đã có thể sử dụng mô hình Veo 3 trong ứng dụng Gemini và trong Flow. Công cụ này cũng khả dụng cho người dùng doanh nghiệp trên Vertex AI.
Các cập nhật mới trên Veo 2: Các khả năng mới được xây dựng cùng và dành cho các nhà làm phim
Khi phát triển Veo 3, chúng tôi cũng đã bổ sung các tính năng mới cho mô hình Veo 2, dựa trên những gì chúng tôi rút ra được từ quá trình làm việc với các nhà sáng tạo và nhà làm phim. Hôm nay, chúng tôi giới thiệu những tính năng mới trên mô hình Veo 2, bao gồm:
Tính năng tham chiếu video tiên tiến (state-of-the-art reference powered video capability) cho phép bạn cung cấp mô hình Veo những hình ảnh nhân vật, cảnh vật, đối tượng, thậm chí cả phong cách nhằm kiểm soát sáng tạo và đảm bảo tính nhất quán tốt hơn.
Tính năng điều khiển camera (Camera controls) giúp bạn xác định chính xác các chuyển động của máy quay, bao gồm xoay, di chuyển ngang và phóng to để có được cảnh quay hoàn hảo.
Tính năng mở rộng khung hình (Outpainting) cho phép bạn mở rộng khung hình video, chuyển đổi từ định dạng dọc sang ngang, giúp dễ dàng điều chỉnh với mọi kích thước màn hình, tự động thêm các chi tiết vào cảnh quay một cách thông minh.
Tính năng thêm và xóa đối tượng (Object add and remove) cho phép bạn thêm hoặc xóa các đối tượng khỏi video của mình. Veo có khả năng hiểu về tỷ lệ, kỹ thuật tương tác và đổ bóng, đồng thời sử dụng những kiến thức này để tạo ra một cảnh quay trông tự nhiên và chân thực.
Tính năng tham chiếu video và điều khiển camera hiện đã có trong Flow. Chúng tôi rất hào hứng khi sẽ sớm mang tất cả những khả năng mới này đến API trong Vertex AI vào những tuần tới, và tiếp tục tích hợp trong nhiều sản phẩm khác trong những tháng tiếp theo.
Flow: Công cụ làm phim bằng AI thiết kế riêng cho Veo
Được xây dựng cùng và dành cho giới sáng tạo, Flow là một công cụ làm phim bằng AI cho phép bạn tạo ra các đoạn clip, cảnh quay và câu chuyện điện ảnh một cách liền mạch thông qua việc kết hợp các mô hình tiên tiến nhất của Google DeepMind: Veo, Imagen và Gemini. Bạn có thể sử dụng ngôn ngữ tự nhiên để mô tả ý tưởng cảnh quay của mình cho Flow, kiểm soát những yếu tố cốt lõi của câu chuyện như nhân vật, địa điểm, đối tượng và phong cách tại một điểm quay duy nhất, và sử dụng Flow để biến câu chuyện của bạn thành những cảnh quay tuyệt đẹp.
Flow hiện đã được triển khai cho những người đăng ký gói Google AI Pro và Ultra tại Mỹ, và sẽ sớm được mở rộng trên nhiều quốc gia khác.
Imagen 4: Chất lượng hình ảnh cao cùng khả năng sắp xếp chữ vượt trội
Mô hình Imagen mới nhất của chúng tôi kết hợp giữa tốc độ và độ chính xác để tạo ra những hình ảnh tuyệt đẹp. Imagen 4 có độ rõ nét đáng kể trong các chi tiết nhỏ như họa tiết vải tinh xảo, giọt nước và lông động vật, đồng thời vượt trội ở cả phong cách siêu thực lẫn trừu tượng. Imagen 4 có thể tạo hình ảnh ở nhiều tỷ lệ khung hình khác nhau và có độ phân giải lên tới 2K – thậm chí có chất lượng tốt hơn phục vụ cho việc in ấn hoặc thuyết trình. Mô hình này cũng vượt trội hơn trong việc đánh vần và sắp xếp chữ, giúp bạn dễ dàng tạo thiệp chúc mừng, áp phích và thậm chí là truyện tranh của riêng mình.
Các hình ảnh khởi tạo từ Imagen 4
Imagen 4 hiện đã tích hợp trong ứng dụng Gemini, Whisk, Vertex AI và khắp các công cụ Slides, Vids, Docs cùng nhiều ứng dụng khác thuộc Workspace.
Trong thời gian tới, chúng tôi cũng sẽ ra mắt một phiên bản Imagen 4 nhanh hơn, có tốc độ gấp 10 lần so với Imagen 3 — giúp bạn phát triển ý tưởng nhanh chóng hơn nữa.
Lyria 2: Khả năng sáng tác vượt trội và sáng tạo không giới hạn
Vào tháng 4, chúng tôi đã mở rộng quyền truy cập vào Music AI Sandbox - công cụ được hỗ trợ bởi Lyria 2. Music AI Sandbox cung cấp cho các nhạc sĩ, nhà sản xuất và người sáng tác một bộ công cụ thử nghiệm, có thể khơi gợi những khả năng sáng tạo mới và giúp các nghệ sĩ khai thác thêm nhiều chất liệu âm nhạc độc đáo. Kiến thức chuyên môn và phản hồi quý báu từ giới sáng tạo âm nhạc giúp chúng tôi đảm bảo các công cụ của mình có thể trao quyền cho các nhà sáng tạo, đồng thời khuyến khích họ khai phá tiềm năng của AI trong tác phẩm nghệ thuật của mình.
Lyria 2 mang đến khả năng sáng tác vượt trội và sáng tạo không giới hạn, và mô hình này hiện đã được mang đến cho các nhà sáng tạo thông qua YouTube Shorts và người dùng doanh nghiệp trong Vertex AI. Chúng tôi cũng đã triển khai mô hình Lyria RealTime - mô hình tạo nhạc tương tác trong công cụ MusicFX DJ thông qua API và trong AI Studio. Lyria RealTime cho phép bất kỳ ai cũng có thể tương tác sáng tạo, kiểm soát và biểu diễn nhạc tạo sinh theo thời gian thực.
Sáng tạo có trách nhiệm và hợp tác với cộng đồng sáng tạo
Kể từ khi ra mắt vào năm 2023, SynthID đã gắn dấu mộc (watermark) lên hơn 10 tỷ hình ảnh, video, tệp âm thanh và văn bản, giúp xác định chúng là nội dung do AI tạo ra và giảm thiểu nguy cơ thông tin sai lệch hay gán ghép sai nguồn. Các nội dung được tạo ra bởi Veo 3, Imagen 4 và Lyria 2 sẽ tiếp tục có watermark của SynthID.
Hôm nay, chúng tôi ra mắt SynthID Detector, một cổng xác minh giúp mọi người nhận diện nội dung do AI tạo ra. Bạn chỉ cần tải một nội dung lên và SynthID Detector sẽ xác định xem liệu toàn bộ tệp hay chỉ một phần của nó có chứa watermark của SynthID hay không.
Với tất cả các mô hình AI tạo sinh của mình, chúng tôi mong muốn bứt phá sự sáng tạo của con người và hỗ trợ các nghệ sĩ, nhà sáng tạo thực thi ý tưởng của mình nhanh chóng và dễ dàng hơn bao giờ hết.
Không có nhận xét nào :
Đăng nhận xét