WebSocket 연결은 얼마나 오래 열려 있을 수 있습니까?

WebSocket 연결은 60분으로 제한됩니다. 이 제한에 도달하면 다시 연결하고 새 WebSocket 연결을 만들어야 계속할 수 있습니다.

WebSocket 모드는 Zero Data Retention(ZDR) 및 store=false와 호환됩니까?

예, WebSocket 모드는 이전 응답 상태를 메모리에만 보관하고 디스크에 쓰지 않으므로 Zero Data Retention(ZDR) 및 store=false 설정과 모두 호환됩니다.

WebSocket 모드에서 연속은 어떻게 작동합니까?

WebSocket 모드에서 서비스는 연결 로컬 인메모리 캐시(가장 최근 응답)에 이전 응답 상태를 하나 보관합니다. 실행을 계속하려면 이전 응답 ID가 이전 응답 ID로 설정되고 새 항목만 포함하는 입력으로 다른 response.create를 보냅니다.

하나의 WebSocket 연결에서 여러 응답이 동시에 실행될 수 있습니까?

아니요, 단일 WebSocket 연결은 여러 response.create 메시지를 수신할 수 있지만 순차적으로 실행합니다(한 번에 하나의 진행 중인 응답). 병렬 실행의 경우 여러 연결을 사용해야 합니다.

WebSocket 모드에서 턴이 실패하면 어떻게 됩니까?

턴이 실패하면(4xx 또는 5xx 오류) 서비스는 연결 로컬 캐시에서 참조된 previous_response_id를 제거합니다. 이렇게 하면 해당 실패한 연속에 대해 오래된 캐시된 상태를 재사용하는 것을 방지할 수 있습니다.

OpenAI WebSocket Mode for Responses API

WebsiteContact for PricingAI DevOps Assistant AI API Design

Responses API용 OpenAI WebSocket 모드는 증분 입력 및 효율적인 도구 호출 처리를 통해 낮은 대기 시간, 장기 실행 에이전트 워크플로우를 가능하게 하는 영구 연결 기반 솔루션입니다.

웹사이트 방문

이 도구 광고하기

https://developers.openai.com/api/docs/guides/websocket-mode?ref=producthunt&utm_source=aipure

개요
동영상
대안

제품 정보

업데이트됨:Mar 8, 2026

OpenAI WebSocket Mode for Responses API이란?

OpenAI WebSocket 모드는 빈번한 모델-도구 상호 작용이 필요한 복잡한 AI 워크플로우를 위해 설계된 Responses API 내의 특수 전송 모드입니다. /v1/responses 엔드포인트에 영구적인 WebSocket 연결을 설정하여 개발자가 애플리케이션과 OpenAI 모델 간의 지속적인 통신을 유지할 수 있도록 합니다. 이 모드는 ZDR(제로 데이터 보존) 및 store=false 옵션과 완벽하게 호환되므로 데이터 개인 정보 보호 요구 사항을 유지하면서 상태 저장 및 상태 비저장 구현 모두에 적합합니다.

OpenAI WebSocket Mode for Responses API의 주요 기능

Responses API용 OpenAI WebSocket 모드는 장시간 실행되는 도구 호출 중심 워크플로우를 위해 특화된 통신 프로토콜입니다. 가장 최근 응답에 대한 연결 로컬 인메모리 캐시를 유지 관리하여 클라이언트가 매번 전체 컨텍스트를 다시 보내는 대신 previous_response_id로 증분 입력만 보낼 수 있도록 합니다. 이 모드는 ZDR(Zero Data Retention) 및 store=false 옵션과 호환성을 유지하면서 20개 이상의 도구 호출이 있는 워크플로우의 엔드 투 엔드 실행 속도를 최대 40%까지 향상시킬 수 있습니다.

영구 연결: 최대 60분 동안 단일 WebSocket 연결을 유지 관리하여 각 상호 작용에 대해 새로운 HTTP 연결을 설정할 필요가 없습니다.

증분 입력 처리: 전체 대화 컨텍스트를 다시 보내는 대신 새 입력 항목과 previous_response_id만 보낼 수 있습니다.

연결 로컬 캐싱: Zero Data Retention 요구 사항과 호환성을 유지하면서 더 빠른 액세스를 위해 가장 최근 응답 상태를 메모리에 유지 관리합니다.

선택적 워밍업 요청: 후속 턴의 지연 시간을 줄이기 위해 서버 측 상태를 미리 준비하기 위해 generate:false 요청을 지원합니다.

OpenAI WebSocket Mode for Responses API의 사용 사례

AI 기반 코드 개발: AI 에이전트가 파일 읽기, 코드 작성 및 테스트를 위해 여러 순차적 도구 호출을 수행하는 효율적인 코딩 지원 워크플로우를 지원합니다.

복잡한 자동화 파이프라인: 지연 시간을 줄여 여러 도구 상호 작용 및 오케스트레이션 단계를 요구하는 장시간 실행 자동화 작업을 지원합니다.

다단계 추론 시스템: AI가 여러 순차적 결정 및 도구 호출을 수행해야 하는 복잡한 문제 해결 시나리오를 용이하게 합니다.

실시간 에이전트 워크플로우: 사용자 입력에 대한 응답으로 여러 작업을 수행하는 동안 컨텍스트를 유지해야 하는 대화형 AI 에이전트를 지원합니다.

장점

도구 중심 워크플로우의 지연 시간을 크게 줄입니다(최대 40% 더 빠름).

증분 업데이트만 전송하여 대역폭 사용량을 줄입니다.

ZDR 및 store=false와 같은 기존 보안 기능과 호환됩니다.

단점

60분 연결 지속 시간으로 제한되어 재연결이 필요합니다.

단일 연결 내에서 병렬 응답 처리를 지원하지 않습니다.

연결 관리 및 복구를 위한 추가 오류 처리가 필요합니다.

OpenAI WebSocket Mode for Responses API 사용 방법

필수 종속성 설치: 다음 명령어를 사용하여 Python용 websocket-client 라이브러리를 설치합니다: pip install websocket-client

라이브러리 가져오기: 필수 라이브러리 가져오기: 환경 변수를 위한 websocket, json 및 os

WebSocket 연결 생성: 헤더에 API 키를 사용하여 OpenAI 엔드포인트 'wss://api.openai.com/v1/responses'에 WebSocket 연결 설정

초기 응답 생성 이벤트 전송: 모델, 저장 플래그, 초기 입력 메시지 및 도구 배열과 함께 첫 번째 response.create 이벤트를 보냅니다. 스트림 또는 백그라운드 필드는 포함하지 마십시오.

선택 사항: 요청 상태 워밍업: 선택적으로 generate:false와 함께 response.create를 보내 출력을 생성하지 않고 향후 요청에 대한 서버 상태를 준비합니다.

대화 계속: previous_response_id와 새로운 입력 항목(도구 출력, 새 메시지)만 사용하여 후속 response.create 이벤트를 보냅니다.

연결 제한 처리: 60분 연결 제한을 모니터링하고 필요할 때 다시 연결합니다. 한 번에 하나의 응답만 전송할 수 있습니다.

재연결 처리: 다시 연결할 때: previous_response_id(store=true인 경우)로 계속하거나, 새 응답을 시작하거나, /responses/compact에서 압축된 컨텍스트를 사용합니다.

오류 처리: previous_response_not_found 및 websocket_connection_limit_reached 오류를 적절하게 처리합니다.

연결 닫기: ws.close()를 사용하여 사용이 끝나면 WebSocket 연결을 닫습니다.

OpenAI WebSocket Mode for Responses API 자주 묻는 질문

WebSocket 모드는 OpenAI의 Responses API의 기능으로, 장기 실행되고 도구 호출이 많은 워크플로우를 위해 지속적인 연결을 가능하게 합니다. 주요 이점으로는 턴당 지속 오버헤드 감소와 긴 체인에서 엔드 투 엔드 지연 시간 개선이 있습니다. 20개 이상의 도구 호출이 있는 워크플로우의 경우 최대 40% 더 빠른 엔드 투 엔드 실행을 달성할 수 있습니다.