Sesameのモデルは、どのライセンスでリリースされますか？

Sesameは、Apache 2.0ライセンスでモデルをリリースすることを約束しています。

Sesameの音声技術の主要なコンポーネントは何ですか？

主要なコンポーネントには、感情的知性（感情的なコンテキストを読み取り、応答する）、会話のダイナミクス（自然なタイミング、ポーズ、中断）、コンテキスト認識（状況に合わせてトーンを調整する）、および一貫した人格の維持が含まれます。

Sesameは現在、どのモデルサイズを提供していますか？

Sesameは、Tiny（1Bバックボーン、100Mデコーダー）、Small（3Bバックボーン、250Mデコーダー）、およびMedium（8Bバックボーン、300Mデコーダー）の3つのモデルサイズを提供しています。

SesameのCSMの現在の制限事項は何ですか？

主な制限事項は、主に英語データでトレーニングされており、多言語能力が限られていること、事前トレーニング済みの言語モデル情報を十分に活用していないこと、会話の完全な構造ではなく、テキストと音声コンテンツのみをモデル化できることです。

Sesameは、モデルのパフォーマンスをどのように評価しますか？

Sesameは、客観的および主観的なメトリックの両方を使用します。客観的なメトリックには、単語誤り率、話者類似性、同形異義語の曖昧さ回避、および発音の一貫性が含まれます。主観的な評価では、人間の評価者による比較平均オピニオンスコア（CMOS）調査を使用します。

Sesame

WebsiteFree TrialAI Voice Assistants AI Character

Sesameは、自然で感情的にインテリジェントな音声モデルで不気味の谷を越えることを目指し、本物の対話を行うことができる画期的な会話型音声技術を開発しているAIスタートアップです。

ウェブサイトを訪問

このツールを宣伝する

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice?ref=aipure&utm_source=aipure

概要
分析
代替案

製品情報

更新日:2025年07月15日

Sesame の月間トラフィック傾向

セサミストリートは、29.3%のトラフィック減少を経験しました。これは主に、エルモのXアカウントがハッキングされ、反ユダヤ主義的および人種差別的なメッセージが投稿されたことで、評判に大きな悪影響を及ぼしたためと考えられます。さらに、最近の数ヶ月間における主要なアップデートや新コンテンツの不足も、この減少の一因となった可能性があります。

過去のトラフィックを表示

Sesameとは

Oculus VRの元CEOであるBrendan Iribeによって設立され、Andreessen HorowitzやSpark Capitalなどの主要投資家の支援を受けているSesameは、会話型音声モデル（CSM）を通じて、人間とAIのインタラクションに革命を起こしています。同社は、前例のない感情的な表現力と会話の流暢さで自然な会話をすることができるAI音声アシスタント「Maya」と「Miles」を開発しました。彼らの技術は、本物の人間のように聞こえ、インタラクトするAIコンパニオンを作成する上で重要な一歩となります。

Sesameの主な機能

Sesameは、より自然で感情的に知的な音声インタラクションの創造を目指すConversational Speech Model（CSM）を開発した、先駆的なAI音声技術企業です。彼らの技術は、感情知能、会話のダイナミクス、およびコンテキスト認識を組み合わせて「音声プレゼンス」を実現し、会話を現実的で価値のあるものと感じさせます。同社はApache 2.0ライセンスの下でモデルをオープンソース化する予定であり、現在、驚くほど人間のような音声機能を示す2つのAI音声（MayaとMiles）をフィーチャーしたデモを提供しています。

感情知能: 感情的なコンテキストを読み取り、それに応じてトーンと表現を調整する能力

リアルタイム会話ダイナミクス: 人間の会話パターンを模倣した、自然なタイミング、ポーズ、中断、および音声の強調

コンテキスト認識: 状況と会話履歴に基づいてトーンとスタイルを調整する機能

マルチスピーカーサポート: 一貫性があり適切なプレゼンスを備えた複数の音声パーソナリティ（MayaとMiles）をフィーチャー

Sesameのユースケース

パーソナルデジタルアシスタント: 日々のタスクやインタラクションのため、より魅力的で自然なAIアシスタントを作成

カスタマーサービス: 適切な感情的な反応を備えた、より人間らしい自動化されたカスタマーサポートの提供

教育技術: より魅力的で応答性の高いバーチャルチューターと学習アシスタントの開発

ヘルスケアコミュニケーション: 患者のインタラクションとサポートのための共感的なバーチャルヘルスアシスタントの提供

メリット

非常に自然で感情的に表現力豊かな音声インタラクション

Apache 2.0ライセンスの下でモデルをオープンソース化する計画

低遅延でスムーズな応答時間

デメリット

現在、主に英語に限定されている

中断や会話の流れにまだ問題がある

AIとの感情的なつながりについて非現実的な期待を生み出す可能性がある

Sesameの使い方

デモページにアクセス: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo にアクセスしてください

マイクへのアクセスを許可: プロンプトが表示されたら、AIとの音声インタラクションを有効にするためにマイクのアクセス許可を付与します

AIコンパニオンを選択: 会話の相手として「Maya」または「Miles」のいずれかを選択します

話し始める: AIコンパニオンと自然に話し始めます。システムは、文脈的に適切な応答でリアルタイムに応答します

ブラウザの要件に注意: 最良の結果を得るには、Google Chromeブラウザを使用してください。iOS/Safari 17.5では音質が低下する可能性があります

記録ポリシーに注意: 通話は品質レビューのために記録されますが、30日以内に削除され、MLトレーニングには使用されないことに注意してください

利用規約を確認: デモを使用することにより、Sesameの利用規約とプライバシーポリシーに同意したことになります

Sesameのよくある質問

CSMは、\"声の存在感\"を実現することを目指すマルチモーダルなテキストおよび音声モデルです。つまり、話し言葉のやり取りをリアルで、理解され、価値のあるものに感じさせることを目指しています。トランスフォーマーを使用して、コンテキスト、感情、プロソディを理解することにより、自然な会話音声の生成を行います。