Gemini 3.5 Live Translate는 몇 개의 언어를 지원하나요?

70개 이상의 언어를 자동으로 감지하고 번역합니다.

말하는 사람이 말을 마친 후에만 번역하나요(턴별)?

아니요. 화자가 말하는 동안 번역된 음성을 지속적으로 생성하며, 지연 시간과 번역 품질의 균형을 맞추면서 몇 초 뒤처지는 것을 목표로 합니다.

화자의 음성 특성을 보존하나요?

화자의 억양, 속도 및 음높이를 보존하는 자연스러운 번역 음성을 생성합니다.

Gemini 3.5 Live Translate는 어디에서 사용할 수 있나요?

개발자를 위한 Gemini Live API 및 Google AI Studio(공개 미리보기), 기업을 위한 Google Meet(이번 달부터 비공개 미리보기), 모든 사용자를 위한 Android 및 iOS의 Google 번역 앱을 통해 출시됩니다.

개발자가 이를 사용하여 실시간 번역 앱을 만들 수 있으며, 어떤 도구를 사용할 수 있나요?

네. 개발자는 Gemini Live API를 통해 사용할 수 있으며, Google은 데모 및 예제 코드(예: LiveKit 기반 실시간 번역 데모를 포함한 gemini-live-api-examples 저장소)를 제공합니다.

수동 언어 구성이 필요한가요?

아니요. 이 모델은 다국어 입력을 처리하고 수동 구성 없이 언어를 자동으로 감지합니다.

Google은 생성된 오디오의 안전 및 감지 가능성을 어떻게 다루나요?

모델이 생성한 오디오에는 SynthID 워터마크가 적용되어 있으며, 이는 AI 생성 콘텐츠를 감지하는 데 도움이 되도록 오디오에 삽입된 감지할 수 없는 워터마크입니다.

Gemini 3.5 Live Translate

WebsiteAppFree TrialTranslate AI Voice Chat Generator

Gemini 3.5 Live Translate는 Google의 저지연 스트리밍 음성-음성 번역 오디오 모델로, 70개 이상의 언어를 자동 감지하고 화자의 억양, 속도, 음높이를 보존하면서 부드럽고 자연스러운 번역 음성을 생성합니다.

웹사이트 방문

이 도구 광고하기

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate?ref=producthunt&utm_source=aipure

개요
분석
동영상
대안

제품 정보

업데이트됨:Jun 15, 2026

Gemini 3.5 Live Translate 월간 트래픽 동향

Gemini 3.5 Live Translate은(는) 지난달 8.5m회 방문을 기록했으며, 이는 -12.1%의 약간의 감소을(를) 보여줍니다. 저희 분석에 따르면 이러한 추세는 AI 도구 분야의 일반적인 시장 동향과 일치합니다.

과거 트래픽 보기

Gemini 3.5 Live Translate이란?

Gemini 3.5 Live Translate는 실시간 대화 중 유동적이고 거의 실시간에 가까운 음성 번역을 위해 구축된 전문 Gemini 3.5 제품군 오디오 모델입니다. 일반적인 '말하고, 기다리고, 번역하는' 도구처럼 느껴지는 대신, 자연스러운 대화를 따라가고 70개 이상의 언어에서 실제와 같은 번역된 오디오를 제공하도록 설계되었습니다. Google은 이를 여러 서비스에 걸쳐 출시하고 있습니다. Gemini Live API 및 Google AI Studio를 통한 개발자용 공개 미리보기, Google Meet에서 일부 기업 고객을 위한 비공개 미리보기, Android 및 iOS용 Google 번역 앱을 통한 최종 사용자용 전 세계 출시가 진행됩니다.

Gemini 3.5 Live Translate의 주요 기능

Gemini 3.5 Live Translate는 70개 이상의 언어에 걸쳐 거의 실시간 번역을 제공하는 Google의 저지연 음성-음성 번역 오디오 모델입니다. 이 모델은 스트리밍 오디오를 지속적으로 번역하고(순차적 번역 대신), 수동 구성 없이 언어를 자동 감지 및 전환하며, 화자의 억양, 속도 및 음높이를 보존하면서 몇 초 뒤처지도록 설계되었습니다. 시끄러운 실제 환경에서 작동하도록 설계되었으며, 개발자를 위한 Gemini Live API/Google AI Studio, Google Meet(기업용 비공개 미리보기), Android 및 iOS용 Google 번역 앱에 출시될 예정이며, 생성된 오디오에는 감지 가능성을 위해 SynthID 워터마킹이 적용됩니다.

거의 실시간 음성-음성 번역: 음성 언어를 낮은 지연 시간으로 직접 음성 출력으로 번역하여 번역이 화자보다 몇 초 뒤처지도록 합니다.

지속적인 스트리밍 (순차적 번역 아님): 화자가 말하는 동안 번역된 음성을 지속적으로 생성하여 어색한 일시 중지를 줄이고 대화가 더 자연스럽게 느껴지도록 합니다.

70개 이상의 언어 자동 감지: 70개 이상의 언어를 자동으로 인식하고 전환하여 다국어 대화에서 수동 입력 언어 구성을 피합니다.

전달 및 표현력 보존: 화자의 전달 방식(억양, 속도, 음높이)을 유지하도록 설계되어 번역이 더 생생하고 원본 톤과 일치하게 들립니다.

실제 환경에 강한 노이즈 내성: 조용한 방에서뿐만 아니라 시끄럽고 예측 불가능한 환경(예: 이동 중 대화, 이벤트, 번화가)에서도 작동하도록 구축되었습니다.

SynthID 워터마크가 적용된 오디오 출력: 생성된 모든 오디오에는 AI 생성 음성을 감지하고 오용을 줄이는 데 도움이 되도록 파형에 감지할 수 없는 SynthID 워터마크가 포함되어 있습니다.

Gemini 3.5 Live Translate의 사용 사례

다국어 화상 회의 (기업): Google Meet에서 70개 이상의 언어와 2000개 이상의 언어 조합에 걸쳐 실시간 음성 번역을 지원하여 더욱 포괄적인 글로벌 협업을 가능하게 합니다.

여행 및 대면 대화: Google 번역 앱에서 헤드폰을 통한 실시간 번역(및 이어폰을 통한 Android '듣기 모드')을 지원하여 더욱 원활한 실제 의사소통을 가능하게 합니다.

고객 지원 및 컨택 센터: 상담원과 고객이 다른 언어로 자연스럽게 대화하면서 지속적으로 번역된 오디오를 받을 수 있도록 하여 속도를 향상시키고 오해를 줄입니다.

차량 호출 및 이동성 조정: 픽업 및 이동 중 운전자-승객 간의 거의 실시간 의사소통을 가능하게 합니다(예: Grab과 같은 파트너가 다국어 통화를 위해 테스트 중).

교육 및 훈련: 수업, 튜터링 및 워크숍을 위한 실시간 통역을 지원하여 강사가 순차적 번역을 위해 멈추지 않고 다국어 청중을 가르칠 수 있도록 돕습니다.

방송, 이벤트 및 실시간 통역 앱: Gemini Live API 및 파트너 스트리밍 플랫폼(예: LiveKit/Agora)을 통해 개발자는 실시간 더빙 및 다국어 번역 경험을 구축할 수 있습니다.

장점

일시 중지 횟수가 적은 연속 스트리밍 번역으로 인해 더 자연스러운 대화가 가능합니다.

70개 이상의 언어 자동 감지 및 다국어 입력 처리로 광범위한 적용 범위를 제공합니다.

노이즈 내성으로 실제 환경에 맞게 설계되었습니다.

SynthID 워터마킹은 투명성을 향상시키고 생성된 오디오의 오용을 방지하는 데 도움이 됩니다.

단점

품질 대 동기화 절충으로 인해 번역이 여전히 화자보다 몇 초 뒤처질 수 있습니다.

Google Meet의 기업용 가용성은 초기에는 제한적입니다(광범위한 출시 전 비공개 미리보기).

제공된 출처에서 출시 시 가격/추가 비용이 명확하게 공개되지 않았습니다.

Gemini 3.5 Live Translate 사용 방법

1) Gemini 3.5 Live Translate를 사용할 위치를 선택하세요.: 필요에 맞는 서비스를 선택하세요. (a) 개인용 Google 번역 앱(Android/iOS), (b) 회의용 Google Meet(기업/비공개 미리보기), 또는 (c) 자체 앱에 실시간 번역을 구축하기 위한 Gemini Live API / Google AI Studio(개발자/공개 미리보기)입니다.

2) Google 번역 앱(Android/iOS)에서 사용하세요.: Android 또는 iOS에 Google 번역을 설치/업데이트하세요. 앱을 열고 실시간 번역 / 대화형 실시간 번역 환경을 선택하세요. 가장 원활한 경험을 위해 헤드폰을 연결하세요. 이 모델은 70개 이상의 언어에서 거의 실시간으로 번역된 음성을 스트리밍하며, 어조, 속도, 음높이를 보존하는 것을 목표로 합니다.

3) (Android) 비공개 재생을 위한 새로운 듣기 모드를 사용해 보세요.: 지원되는 Android 출시 버전에서 3.5 Live Translate와 함께 새로운 듣기 모드를 활성화하세요. 일반 통화처럼 휴대폰을 귀에 대고 이어피스를 통해 번역된 오디오를 들으세요. 헤드폰이 없고 다른 사람이 번역을 듣지 않기를 원할 때 유용합니다.

4) Google Meet(기업/비공개 미리보기)에서 사용하세요.: 비공개 미리보기에 참여하는 일부 Google Workspace 비즈니스 고객이라면 Google Meet을 열고 회의를 시작/참여하세요. 업데이트된 Meet 인터페이스를 사용하여 음성 번역에 액세스하세요. Meet은 단일 회의 내에서 70개 이상의 언어와 2000개 이상의 언어 조합을 지원합니다(영어를 피벗 언어로 제한하지 않음).

5) Google AI Studio(개발자/공개 미리보기)에서 코딩 없이 사용해 보세요.: Google AI Studio의 라이브 환경으로 이동하여 'gemini-3.5-live-translate-preview' 모델을 선택하세요. AUDIO 출력용 세션을 구성하고 대상 언어 코드를 설정하여 번역을 활성화하세요. 마이크 오디오 스트리밍을 시작하면 지속적으로 번역된 오디오와 (선택적으로) 입력/출력 전사본을 수신할 수 있습니다.

6) Gemini Live API(개발자/공개 미리보기)로 구축 — 사전 요구 사항 설정: Gemini Live API 및 API 키에 액세스하세요. 스트리밍 스택(WebSocket 또는 SDK)을 결정하세요. 실시간 미디어 파이프라인을 직접 구축하고 싶지 않다면, 실시간 스트리밍 인프라를 처리하는 소스에 언급된 파트너 플랫폼(Agora, Fishjam, LiveKit, Pipecat, Vision Agents)을 고려하세요.

7) 라이브 세션을 생성하고 구성에서 번역을 활성화하세요.: 'gemini-3.5-live-translate-preview' 모델을 사용하여 Live API에 연결하고, responseModalities=["AUDIO"], inputAudioTranscription 활성화(선택 사항), outputAudioTranscription 활성화(선택 사항), 그리고 targetLanguageCode(예: "pl") 및 echoTargetLanguage(선택 사항)가 포함된 translationConfig를 사용하여 LiveConnectConfig / generationConfig를 설정하세요.

8) 오디오를 스트리밍하고 번역된 오디오를 재생하세요(연속 번역).: 캡처되는 대로 마이크 오디오 프레임/청크를 보내세요. 모델은 스트리밍되는 음성을 처리하고 번역된 오디오를 지속적으로 반환합니다(화자보다 몇 초 뒤처짐). 반환된 오디오 스트림을 실시간으로 청취자에게 재생하고, 활성화된 경우 선택적으로 입력/출력 전사본을 표시하세요.

9) 다국어 및 시끄러운 실제 입력 처리: 다국어 입력에 대한 모델의 자동 언어 감지 기능에 의존하세요(수동 언어 전환 불필요). 실제 환경에 맞게 UX를 설계하세요. 배경 소음, 방해, 겹치는 음성이 발생할 수 있습니다. 오디오 캡처를 안정적으로 유지하고 누가 말하고 어떤 언어가 출력되는지 명확한 지표를 제공하세요.

10) 출력 유효성 검사 및 워터마킹 전달: Gemini 3.5 Live Translate에서 생성된 모든 오디오는 SynthID(오디오에 내장된 인지할 수 없는 워터마크)로 워터마크 처리된다는 점을 인지하세요. 제품을 구축하는 경우, 번역된 오디오가 AI 생성이며 감지 가능성을 위해 워터마크를 포함한다는 내용을 문서화하세요.

11) 공식 데모 및 예제 코드를 사용하여 개발 속도 향상: Google의 Gemini Live API 데모 및 예제 저장소(예: LiveKit 기반 실시간 번역 데모 및 기타 Gemini Live API 예제)를 검토하여 작동하는 스트리밍 파이프라인을 복사한 다음, 앱의 UI 및 배포 환경에 맞게 조정하세요.