第1回:音声翻訳の本当の課題は精度ではなかった

音声翻訳アプリを使って、海外の方と会話をしたことはありますでしょうか。

Microsoft Translator、Google翻訳、Appleの AirPodsライブ通訳——大手テック企業が提供するリアルタイム音声翻訳は、年々精度が向上しています。対応言語も増え、技術としては非常に成熟してきました。

しかし、実際に使ってみると、ある違和感に気づきます。

翻訳は正確なのに、会話がうまくいかない。


問題は「沈黙」にありました

英語でのビジネス会話で翻訳アプリを使うと、こうした状況が生まれます。

相手が英語で話す → 翻訳を待つ(3〜5秒の沈黙)→ 翻訳を読む → 自分が話す → また相手が待つ

この「翻訳を待つ沈黙」の間、相手は「聞こえていないのかな」と不安になり、こちらは翻訳が出るまで反応することができません。翻訳の品質がどれほど向上しても、この会話のテンポが崩れる問題は構造的に解消されません。

既存の音声翻訳は、いずれも「逐次翻訳」というアーキテクチャを採用しています。相手が話し終わるのを待ち、テキストを確定させてから翻訳する。正確ではありますが、そのぶん必ず「待ちの時間」が発生します。


同時通訳者の方は、なぜ「待たない」のか

プロの同時通訳者の仕事を観察すると、興味深いことに気づきます。

通訳者の方は、文が完結する前に訳し始めています

「We should probably reschedule the meeting to…」と聞いた時点で、「会議の日程変更について話しています」と伝え始めている。“Tuesday afternoon” という具体的な情報が聞こえる前から、まず意図を先に伝えているのです。

聞き手にとって最も重要なのは、最初の数秒で「何についての話なのか」がわかることです。詳細な内容は、その後に補足されれば十分対応できます。

この「意図を先に伝える」というアプローチを、ソフトウェアで再現できないか。そう考えて開発を始めたのが、今回ご紹介するプロトタイプです。


Intent-First Translation という考え方

「Intent-First Translation」は、従来の翻訳とは処理の順序が異なります。

従来の翻訳(逐次翻訳):

話し始める → 話し終わる → テキスト確定 → 翻訳 → 表示
           (この間、聞き手には何も伝わらない)

Intent-First Translation:

話し始める → 0.5秒後「日程調整の提案」と表示
      → 0.8秒後「火曜の午後に会議を移動させたい」と表示
      → 話し終わる → 確定翻訳に更新

話し始めてから約500ミリ秒で、「この方は今、日程調整の話をしている」という意図が画面に表示されます。翻訳の全文はその数百ミリ秒後に続きます。

聞き手は、相手がまだ話している最中に「何について話しているか」を把握できます。これは逐次翻訳の構造では実現できない体験です。


個人開発のプロトタイプとして

このシステムは、個人開発のプロトタイプとして構築しました。使用したのは、いずれも公開されているAPIとオープンソース技術です。

  • 音声認識: Deepgramのストリーミング API(話している途中のテキストをリアルタイムで取得)
  • 意図推定・翻訳: Gemini Flash、Groq / Llama 4 Maverick 等のLLM(ストリーミングで構造化出力)
  • リアルタイム通信: WebSocket(バックエンドからフロントエンドへ即時配信)
  • フロントエンド: React + TypeScript
  • バックエンド: Python / FastAPI

実測データ

実際に計測した性能は以下の通りです。

指標Intent-First Translation従来の逐次翻訳(参考)
意図の表示約500ms(該当機能なし)
翻訳の表示開始約500〜800ms約2〜5秒
会話のテンポほぼリアルタイム毎回3〜5秒の中断

話し始めてから約500ミリ秒で意図が伝わるという体験は、従来の翻訳アプリでは得られないものでした。


デモ動画

実際にIntent-First Translationが動作している様子をご覧ください。話している最中に意図と翻訳が表示される様子がわかります:


「正確に訳す」から「自然に会話する」へ

このプロトタイプが目指しているのは、翻訳の精度で既存サービスと競うことではありません。会話のテンポを維持しながら翻訳を届けるという、異なるアプローチの検証です。

まだ開発途上のプロトタイプではありますが、「意図を先に見せる」というシンプルな発想の転換が、音声翻訳の体験を大きく変える可能性を感じています。

次回は、この500ミリ秒を実現するための技術的なアーキテクチャについてお伝えします。


第2回:JSONフィールド順序で翻訳表示が2倍速に 第3回:自宅GPUでリアルタイム翻訳は動くのか