第3回:自宅GPUでリアルタイム翻訳は動くのか

第1回で「Intent-First Translation」のコンセプトを、第2回で技術的な設計をお伝えしました。最終回となる今回は、クラウドAPIに頼らずローカルGPUだけで動かせるかという挑戦の記録と、このプロジェクトの今後の展望についてお伝えします。


なぜローカルLLMを試したのか

クラウドAPIは高速で便利ですが、継続的な利用にはコストが発生します。

プロバイダー5時間あたりのコスト
Groq / Llama 4 Maverick約515円
OpenAI GPT-4o-mini約261円
Gemini 2.5 Flash Lite約175円

日常的に使うツールとして考えると、この費用は無視できません。「自宅のGPUで完結するリアルタイム翻訳」が実現できれば、ランニングコストをゼロにできます。

そこで、手元にあるRTX 3060(VRAM 6GB)でGoogleのオープンソースLLM「Gemma 3 4B」を動かし、リアルタイム翻訳に使えるか検証しました。


Ollama での検証

最初に試したのはOllamaです。

単発のリクエストであれば動作し、翻訳品質も実用的なレベルでした。しかし、リアルタイム翻訳のように並列でリクエストを送ると、GPUメモリが枯渇し、Windowsごと強制シャットダウンされるという結果になりました。

VRAM 6GBという制約は、想定以上に厳しいものでした。


LM Studio 0.4.0(ヘッドレスモード)での検証

次に、LM Studio 0.4.0で追加されたヘッドレスデーモン llmster を試しました。

lms daemon up
lms server start --port 1234 --bind 0.0.0.0 --cors

GUIなしでサーバーとして動作し、OpenAI互換APIを提供するため、バックエンドのコード変更は最小限で済みました。並列リクエスト制御のためのロック機構も実装しましたが、結果は以下の通りです。

項目結果
翻訳△ 動作するが3〜4秒の遅延
サマリー生成× ロック競合でほぼ実行されず
リアルタイム性× 500ms以内の応答は不可能
コスト◎ 完全無料

翻訳自体は動作しますが、1件あたり3〜4秒かかるため、話すスピードに追いつくことができません。

結論として、VRAM 6GBのGPUではリアルタイム翻訳の要件を満たすことはできませんでした。 VRAM 12GB以上(RTX 4070クラス以上)であれば可能性はありますが、現時点ではGroqやGeminiのクラウドAPIが現実的な選択肢です。


モバイル端末でのローカルLLMも調査しました

「スマートフォンのSoC上で直接動かせないか」という方向も調査しました。

MLC Chat、Google AI Edge Gallery、SmolChatといったモバイル向けLLMランタイムを確認しましたが、現行のスマートフォン(Snapdragon 8 Gen 2クラスのSoC)で1Bモデルを動かしても12〜16 tokens/sec程度で、500ms以内のリアルタイム翻訳は現実的ではありませんでした。

ただし、モバイルSoCの演算性能は急速に向上しており、数年以内には実用レベルに達する可能性があると考えています。


今後の開発構想

ローカルLLMの限界を確認した上で、改めてこのプロジェクトの発展方向を考えています。以下の3つを、今後取り組みたいテーマとして検討しています。

1. 音声読み上げ(TTS)によるハンズフリー翻訳

現在のシステムは画面に翻訳を表示する方式ですが、翻訳を音声で読み上げる機能を追加すれば、画面を見る必要がなくなります。

技術的には、ブラウザ標準のWeb Speech API(SpeechSynthesis)を利用します。確定翻訳が生成されたタイミングで日本語の音声を合成し、Bluetoothイヤホン経由で聞くことができます。

相手が英語で話す
  → 音声認識(Deepgram)
  → 意図推定 + 翻訳(LLM、約500ms)
  → 日本語音声の合成・再生
  → Bluetoothイヤホンから翻訳が聞こえる

スマートフォンとBluetoothイヤホンだけで動作する翻訳デバイスとして使えるようになります。

2. 双方向翻訳

現在は英語→日本語の一方向ですが、日本語→英語の逆方向にも対応することで、双方向のリアルタイム会話が可能になります。

  • 自分が日本語で話す → 英語に翻訳 → 相手に届く
  • 相手が英語で話す → 日本語に翻訳 → 自分に届く

通訳者を介さずに、異なる言語の話者同士が自然なテンポで会話できる状態を目指しています。

3. オープンソーススマートグラスとの連携

最も挑戦的なテーマとして、スマートグラスのディスプレイに翻訳字幕を表示するという構想を持っています。

近年、オープンソースのスマートグラスプロジェクトがいくつか立ち上がっています。

  • OpenGlass: 約$20(約3,000円)の部品で、普通のメガネをAIスマートグラスに変換できるオープンソースプロジェクト。XIAO ESP32S3 Senseを使用し、カメラ・マイク・Bluetooth通信に対応しています。

  • Mentra: カメラ、スピーカー、マイクを搭載し、オープンソースのSDKとアプリストアを提供するスマートグラス。サードパーティのアプリ開発が可能です。

  • Team Open Smart Glasses: ディスプレイ、マイク、ワイヤレス接続を備えた完全オープンソースのスマートグラス。ライブ翻訳アプリが公式にサポートされています。

これらのデバイスとIntent-First Translationを組み合わせることで、相手が話し始めてから0.5秒後に、視界に「日程調整の提案」という字幕が現れ、続けて翻訳全文が表示されるという体験が技術的には実現可能です。

必要な技術要素——音声認識API、高速LLM API、WebSocket、Web Speech API、Bluetooth、オープンソースのスマートグラスハードウェア——はすべて既に存在しています。あとは、これらをIntent-Firstの設計思想で統合する段階です。


3回を振り返って

このシリーズでは、Intent-First Translationの着想から技術設計、そして今後の展望までをお伝えしました。

記事テーマ要点
第1回課題と着想音声翻訳の本当の課題は精度ではなく「沈黙」。意図を先に見せることで解消を試みる
第2回技術設計JSONフィールド順序の最適化、3レイヤー構造、6モデルの実測比較
第3回挑戦と展望ローカルLLMの限界を確認。TTS連携、双方向翻訳、スマートグラス統合を構想

Intent-First Translationは、まだプロトタイプの段階です。課題も多く残っています。しかし、「翻訳が正確であること」と「会話が自然に進むこと」は別の問題であり、後者に対するアプローチとしてこの方向性に手応えを感じています。

AIの各種APIとオープンソースのハードウェアが充実した今、個人の開発者でも新しいアプローチを試せる環境が整っています。このプロジェクトの取り組みが、同じ領域に関心をお持ちの方にとって何かしらの参考になれば幸いです。


第1回:音声翻訳の本当の課題は精度ではなかった 第2回:JSONフィールド順序で翻訳表示が2倍速に 第4回:Bluetoothイヤホンで翻訳音声を聞けるか