第1回：音声翻訳の本当の課題は精度ではなかった

音声翻訳アプリを使って、海外の方と会話をしたことはありますでしょうか。

Microsoft Translator、Google翻訳、Appleの AirPodsライブ通訳——大手テック企業が提供するリアルタイム音声翻訳は、年々精度が向上しています。対応言語も増え、技術としては非常に成熟してきました。

しかし、実際に使ってみると、ある違和感に気づきます。

翻訳は正確なのに、会話がうまくいかない。

問題は「沈黙」にありました

英語でのビジネス会話で翻訳アプリを使うと、こうした状況が生まれます。

相手が英語で話す → 翻訳を待つ（3〜5秒の沈黙）→ 翻訳を読む → 自分が話す → また相手が待つ

この「翻訳を待つ沈黙」の間、相手は「聞こえていないのかな」と不安になり、こちらは翻訳が出るまで反応することができません。翻訳の品質がどれほど向上しても、この会話のテンポが崩れる問題は構造的に解消されません。

既存の音声翻訳は、いずれも「逐次翻訳」というアーキテクチャを採用しています。相手が話し終わるのを待ち、テキストを確定させてから翻訳する。正確ではありますが、そのぶん必ず「待ちの時間」が発生します。

プロの同時通訳者の仕事を観察すると、興味深いことに気づきます。

通訳者の方は、文が完結する前に訳し始めています。

「We should probably reschedule the meeting to…」と聞いた時点で、「会議の日程変更について話しています」と伝え始めている。“Tuesday afternoon” という具体的な情報が聞こえる前から、まず意図を先に伝えているのです。

聞き手にとって最も重要なのは、最初の数秒で「何についての話なのか」がわかることです。詳細な内容は、その後に補足されれば十分対応できます。

この「意図を先に伝える」というアプローチを、ソフトウェアで再現できないか。そう考えて開発を始めたのが、今回ご紹介するプロトタイプです。

「Intent-First Translation」は、従来の翻訳とは処理の順序が異なります。

従来の翻訳（逐次翻訳）:

話し始める → 話し終わる → テキスト確定 → 翻訳 → 表示
　　　　　　　　　　　（この間、聞き手には何も伝わらない）

Intent-First Translation:

話し始める → 0.5秒後「日程調整の提案」と表示
　　　　　 → 0.8秒後「火曜の午後に会議を移動させたい」と表示
　　　　　 → 話し終わる → 確定翻訳に更新

話し始めてから約500ミリ秒で、「この方は今、日程調整の話をしている」という意図が画面に表示されます。翻訳の全文はその数百ミリ秒後に続きます。

聞き手は、相手がまだ話している最中に「何について話しているか」を把握できます。これは逐次翻訳の構造では実現できない体験です。

このシステムは、個人開発のプロトタイプとして構築しました。使用したのは、いずれも公開されているAPIとオープンソース技術です。

実際に計測した性能は以下の通りです。

話し始めてから約500ミリ秒で意図が伝わるという体験は、従来の翻訳アプリでは得られないものでした。

実際にIntent-First Translationが動作している様子をご覧ください。話している最中に意図と翻訳が表示される様子がわかります:

このプロトタイプが目指しているのは、翻訳の精度で既存サービスと競うことではありません。会話のテンポを維持しながら翻訳を届けるという、異なるアプローチの検証です。

まだ開発途上のプロトタイプではありますが、「意図を先に見せる」というシンプルな発想の転換が、音声翻訳の体験を大きく変える可能性を感じています。

次回は、この500ミリ秒を実現するための技術的なアーキテクチャについてお伝えします。