
Gemini 3.5 Live Translate
Gemini 3.5 Live Translate là mô hình âm thanh dịch giọng nói sang giọng nói có độ trễ thấp, phát trực tuyến của Google, tự động phát hiện hơn 70 ngôn ngữ và tạo ra giọng nói đã dịch mượt mà, tự nhiên trong khi vẫn giữ nguyên ngữ điệu, tốc độ và cao độ của người nói.
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate?ref=producthunt&utm_source=aipure

Thông tin Sản phẩm
Đã cập nhật:Jun 12, 2026
Xu hướng Lưu lượng Truy cập Hàng tháng của Gemini 3.5 Live Translate
Gemini 3.5 Live Translate đã nhận được 8.5m lượt truy cập trong tháng trước, thể hiện mức Suy giảm Nhẹ -12.1%. Dựa trên phân tích của chúng tôi, xu hướng này phù hợp với động lực thị trường điển hình trong lĩnh vực công cụ AI.
Xem lịch sử lưu lượng truy cậpGemini 3.5 Live Translate là gì
Gemini 3.5 Live Translate là một mô hình âm thanh chuyên biệt thuộc dòng Gemini 3.5 được xây dựng để dịch giọng nói trôi chảy, gần như thời gian thực trong các cuộc trò chuyện trực tiếp. Thay vì cảm giác như một công cụ “nói, đợi, rồi dịch” điển hình, nó được thiết kế để theo kịp các cuộc đối thoại tự nhiên và cung cấp âm thanh dịch sống động như thật trên hơn 70 ngôn ngữ. Google đang triển khai nó trên nhiều nền tảng: bản xem trước công khai dành cho nhà phát triển thông qua API Gemini Live và Google AI Studio, bản xem trước riêng tư dành cho một số khách hàng doanh nghiệp chọn lọc trong Google Meet và khả dụng toàn cầu cho người dùng cuối thông qua ứng dụng Google Dịch trên Android và iOS.
Các Tính năng Chính của Gemini 3.5 Live Translate
Gemini 3.5 Live Translate là mô hình âm thanh dịch giọng nói sang giọng nói có độ trễ thấp của Google, cung cấp bản dịch gần như thời gian thực trên hơn 70 ngôn ngữ. Nó liên tục dịch âm thanh trực tuyến (thay vì từng lượt), tự động phát hiện và chuyển đổi ngôn ngữ mà không cần cấu hình thủ công, đồng thời nhằm mục đích giữ nguyên ngữ điệu, tốc độ và cao độ của người nói trong khi chỉ chậm vài giây. Nó được thiết kế để hoạt động trong môi trường ồn ào, thực tế và đang được triển khai trên Gemini Live API/Google AI Studio cho nhà phát triển, Google Meet (bản xem trước riêng tư cho doanh nghiệp) và ứng dụng Google Dịch trên Android và iOS, với tính năng đánh dấu bản quyền SynthID được áp dụng cho âm thanh được tạo để có thể phát hiện.
Dịch giọng nói sang giọng nói gần như thời gian thực: Dịch ngôn ngữ nói trực tiếp thành đầu ra nói với độ trễ thấp, giữ bản dịch chỉ chậm vài giây so với người nói.
Truyền trực tuyến liên tục (không phải từng lượt): Tạo ra giọng nói đã dịch liên tục trong khi người nói đang nói, giảm các khoảng dừng khó xử và làm cho các cuộc trò chuyện cảm thấy tự nhiên hơn.
Tự động phát hiện hơn 70 ngôn ngữ: Tự động nhận dạng và chuyển đổi giữa hơn 70 ngôn ngữ, tránh cấu hình ngôn ngữ đầu vào thủ công trong các cuộc trò chuyện đa ngôn ngữ.
Giữ nguyên cách thể hiện và biểu cảm: Được thiết kế để giữ lại các khía cạnh trong cách thể hiện của người nói—ngữ điệu, tốc độ và cao độ—để bản dịch nghe giống thật hơn và phù hợp với giọng điệu gốc.
Chống ồn cho môi trường thực tế: Được xây dựng để hoạt động trong môi trường ồn ào và không thể đoán trước (ví dụ: các cuộc trò chuyện đang di chuyển, sự kiện, đường phố đông đúc) thay vì chỉ trong các phòng yên tĩnh.
Đầu ra âm thanh có đánh dấu bản quyền SynthID: Tất cả âm thanh được tạo đều bao gồm một dấu bản quyền SynthID không thể nhận biết được nhúng trong dạng sóng để giúp phát hiện giọng nói do AI tạo ra và giảm thiểu việc lạm dụng.
Các Trường hợp Sử dụng của Gemini 3.5 Live Translate
Các cuộc họp video đa ngôn ngữ (doanh nghiệp): Trong Google Meet, cho phép dịch giọng nói trực tiếp trên hơn 70 ngôn ngữ và hơn 2000 sự kết hợp ngôn ngữ, hỗ trợ hợp tác toàn cầu toàn diện hơn.
Du lịch và các cuộc trò chuyện trực tiếp: Trong ứng dụng Google Dịch, hỗ trợ dịch trực tiếp qua tai nghe (và 'chế độ nghe' trên Android qua tai nghe) để giao tiếp trong thế giới thực liền mạch hơn.
Hỗ trợ khách hàng và trung tâm liên hệ: Cho phép nhân viên và khách hàng nói chuyện tự nhiên bằng các ngôn ngữ khác nhau trong khi nhận được âm thanh dịch liên tục, cải thiện tốc độ và giảm hiểu lầm.
Điều phối gọi xe và di chuyển: Cho phép giao tiếp gần như thời gian thực giữa tài xế và hành khách tại điểm đón và trong suốt chuyến đi (ví dụ: các đối tác như Grab đang thử nghiệm cho các cuộc gọi đa ngôn ngữ).
Giáo dục và đào tạo: Hỗ trợ phiên dịch trực tiếp cho các bài học, hướng dẫn và hội thảo, giúp người hướng dẫn giảng dạy khán giả đa ngôn ngữ mà không cần dừng lại để dịch từng lượt.
Phát sóng, sự kiện và ứng dụng phiên dịch trực tiếp: Thông qua Gemini Live API và các nền tảng phát trực tuyến đối tác (ví dụ: LiveKit/Agora), các nhà phát triển có thể xây dựng trải nghiệm lồng tiếng và dịch đa ngôn ngữ theo thời gian thực.
Ưu điểm
Các cuộc trò chuyện tự nhiên hơn do dịch trực tuyến liên tục với ít khoảng dừng hơn
Phạm vi phủ sóng rộng với khả năng tự động phát hiện hơn 70 ngôn ngữ và xử lý đầu vào đa ngôn ngữ
Được thiết kế cho môi trường thực tế với khả năng chống ồn
Đánh dấu bản quyền SynthID cải thiện tính minh bạch và giúp ngăn chặn việc lạm dụng âm thanh được tạo
Nhược điểm
Bản dịch vẫn có thể chậm vài giây so với người nói do sự đánh đổi giữa chất lượng và đồng bộ hóa
Tính khả dụng của doanh nghiệp trong Google Meet ban đầu bị hạn chế (bản xem trước riêng tư trước khi triển khai rộng rãi hơn)
Giá cả/chi phí bổ sung không được tiết lộ rõ ràng khi ra mắt trong các nguồn được cung cấp
Cách Sử dụng Gemini 3.5 Live Translate
1) Chọn nơi bạn muốn sử dụng Gemini 3.5 Live Translate: Chọn nền tảng phù hợp với nhu cầu của bạn: (a) ứng dụng Google Dịch (Android/iOS) để sử dụng cá nhân, (b) Google Meet (doanh nghiệp/xem trước riêng tư) cho các cuộc họp, hoặc (c) API Gemini Live / Google AI Studio (nhà phát triển/xem trước công khai) để xây dựng tính năng dịch thuật thời gian thực vào ứng dụng của riêng bạn.
2) Sử dụng nó trong ứng dụng Google Dịch (Android/iOS): Cài đặt/cập nhật Google Dịch trên Android hoặc iOS. Mở ứng dụng và chọn trải nghiệm dịch trực tiếp / dịch trực tiếp kiểu trò chuyện. Kết nối tai nghe để có trải nghiệm liền mạch nhất; mô hình phát trực tuyến giọng nói đã dịch gần như thời gian thực trên hơn 70 ngôn ngữ và nhằm mục đích giữ nguyên âm sắc, tốc độ và cao độ.
3) (Android) Thử Chế độ Nghe mới để phát lại riêng tư: Trên các bản triển khai Android được hỗ trợ, bật Chế độ Nghe mới với 3.5 Live Translate. Giữ điện thoại vào tai như một cuộc gọi thông thường để nghe âm thanh đã dịch qua tai nghe—hữu ích khi bạn không có tai nghe và không muốn người khác nghe bản dịch.
4) Sử dụng nó trong Google Meet (doanh nghiệp/xem trước riêng tư): Nếu bạn là khách hàng doanh nghiệp Google Workspace được chọn trong bản xem trước riêng tư, hãy mở Google Meet và bắt đầu/tham gia một cuộc họp. Sử dụng giao diện Meet đã cập nhật để truy cập tính năng dịch giọng nói. Meet sẽ hỗ trợ hơn 70 ngôn ngữ và hơn 2000 sự kết hợp ngôn ngữ trong một cuộc họp (không giới hạn tiếng Anh làm ngôn ngữ trung gian).
5) Thử nó mà không cần viết mã trong Google AI Studio (nhà phát triển/xem trước công khai): Truy cập trải nghiệm Trực tiếp của Google AI Studio và chọn mô hình "gemini-3.5-live-translate-preview". Cấu hình phiên cho đầu ra ÂM THANH và bật dịch bằng cách đặt mã ngôn ngữ đích. Bắt đầu phát trực tuyến âm thanh micrô; bạn sẽ nhận được âm thanh đã dịch liên tục và (tùy chọn) bản ghi đầu vào/đầu ra.
6) Xây dựng với API Gemini Live (nhà phát triển/xem trước công khai) — thiết lập các điều kiện tiên quyết: Nhận quyền truy cập vào API Gemini Live và khóa API. Quyết định ngăn xếp phát trực tuyến của bạn (WebSocket hoặc SDK). Nếu bạn không muốn tự xây dựng hệ thống truyền thông thời gian thực, hãy xem xét các nền tảng đối tác được đề cập trong các nguồn (Agora, Fishjam, LiveKit, Pipecat, Vision Agents) xử lý cơ sở hạ tầng phát trực tuyến thời gian thực.
7) Tạo một phiên Trực tiếp và bật dịch trong cấu hình: Kết nối với API Trực tiếp bằng mô hình "gemini-3.5-live-translate-preview" và đặt LiveConnectConfig / generationConfig với: responseModalities=["AUDIO"], inputAudioTranscription được bật (tùy chọn), outputAudioTranscription được bật (tùy chọn) và translationConfig với targetLanguageCode (ví dụ: "pl") và echoTargetLanguage (tùy chọn).
8) Phát trực tuyến âm thanh vào và phát âm thanh đã dịch ra (dịch liên tục): Gửi các khung/khối âm thanh micrô khi chúng được thu. Mô hình xử lý giọng nói khi nó được phát trực tuyến và trả về âm thanh đã dịch liên tục (chậm hơn người nói vài giây). Phát luồng âm thanh đã trả về cho người nghe theo thời gian thực; tùy chọn hiển thị bản ghi đầu vào/đầu ra nếu được bật.
9) Xử lý đầu vào đa ngôn ngữ và nhiễu trong thế giới thực: Dựa vào tính năng phát hiện ngôn ngữ tự động của mô hình cho các đầu vào đa ngôn ngữ (không yêu cầu chuyển đổi ngôn ngữ thủ công). Thiết kế UX của bạn cho môi trường thực: tiếng ồn xung quanh, gián đoạn và giọng nói chồng chéo có thể xảy ra; giữ cho việc thu âm ổn định và cung cấp các chỉ báo rõ ràng về người đang nói và ngôn ngữ đang được xuất ra.
10) Xác thực đầu ra và thông báo về việc đóng dấu bản quyền: Lưu ý rằng tất cả âm thanh được tạo bởi Gemini 3.5 Live Translate đều được đóng dấu bản quyền bằng SynthID (dấu bản quyền không thể nhận biết được nhúng trong âm thanh). Nếu bạn đang xây dựng một sản phẩm, hãy ghi lại rằng âm thanh đã dịch được tạo bởi AI và bao gồm dấu bản quyền để có thể phát hiện được.
11) Sử dụng các bản demo chính thức và mã ví dụ để tăng tốc phát triển: Xem lại bản demo API Gemini Live của Google và các kho lưu trữ ví dụ (ví dụ: bản demo dịch trực tiếp dựa trên LiveKit và các ví dụ API Gemini Live khác) để sao chép một đường ống phát trực tuyến hoạt động, sau đó điều chỉnh nó cho giao diện người dùng và môi trường triển khai của ứng dụng của bạn.
Câu hỏi Thường gặp về Gemini 3.5 Live Translate
Gemini 3.5 Live Translate là mô hình âm thanh mới nhất của Google để dịch giọng nói sang giọng nói gần như theo thời gian thực.
Video Gemini 3.5 Live Translate
Bài viết phổ biến

Atoms: Nền tảng AI đa tác nhân biến ý tưởng thành sản phẩm sẵn sàng ra mắt
May 22, 2026

Nano Banana SBTI: Nó là gì, Cách thức hoạt động và Cách sử dụng nó vào năm 2026
Apr 15, 2026

Đánh giá Atoms — Trình tạo sản phẩm AI định nghĩa lại việc tạo nội dung số vào năm 2026
Apr 10, 2026

Kilo Claw: Cách Triển Khai và Sử Dụng AI Agent "Làm-Thay-Bạn" Thực Sự (Cập Nhật 2026)
Apr 3, 2026
Phân tích Trang web Gemini 3.5 Live Translate
Lưu lượng truy cập & Xếp hạng của Gemini 3.5 Live Translate
8.5M
Lượt truy cập hàng tháng
#8357
Xếp hạng Toàn cầu
#353
Xếp hạng Danh mục
Xu hướng Lưu lượng truy cập: Nov 2024-Jun 2025
Thông tin chi tiết về Người dùng Gemini 3.5 Live Translate
00:00:53
Thời lượng Truy cập Trung bình
1.93
Số trang mỗi lần Truy cập
55.03%
Tỷ lệ Thoát của Người dùng
Khu vực Hàng đầu của Gemini 3.5 Live Translate
US: 26.94%
IN: 8.76%
GB: 5.14%
JP: 4.24%
DE: 3.01%
Others: 51.91%







