第3回:LoRAと量子化の技術解説 — LLMを軽くする仕組みたち
LLMファインチューニングに不可欠な軽量化技術であるLoRA、量子化、QLoRAの仕組みを解説し、架空の事実をモデルに学習させる「富士山実験」で技術の有効性を実証します。
Blog
LLMファインチューニングに不可欠な軽量化技術であるLoRA、量子化、QLoRAの仕組みを解説し、架空の事実をモデルに学習させる「富士山実験」で技術の有効性を実証します。
Google ColabのT4 GPUでELYZA 8BとLLM-jp 7.2Bを使い株価予測ファインチューニングに挑戦。精度不足に直面しつつも、追加学習やGGUF変換など多くの技術的知見を得た過程を記録します。
OpenAI APIのファインチューニングでgpt-4o-miniをカスタマイズし、約8分の学習で安定したJSON出力と十分な予測精度を実現。データ準備の苦労と、Colabとの決定的な違いを詳しく解説します。
LLMファインチューニングにおける訓練データの設計思想を解説。企業情報・ニュース・株価・財務・マクロ経済指標の5種類のデータ統合、正解ラベルの作り方、8バージョンに及ぶ試行錯誤の過程を記録します。
翻訳用LLMプロバイダとしてDeepSeekを導入したところ、処理速度・中国語混入・入力データ漏洩の3つの問題が発生。ChatGPTへの統一に至った経緯と、LLMプロバイダ選定の教訓をまとめます。
連載最終回。MySQLからFirestoreへのデータ移行で直面したインデックス設計・Upsert戦略・書き込み課金との戦い、そして千里眼サービスの本番運用アーキテクチャの全体像をまとめます。
翻訳パイプラインへのTTS追加の実装記録:Web Speech APIのコード、モバイルブラウザの回避策、Bluetoothオーディオルーティング、そしてネイティブアプリへの道筋。
RTX 3060でのローカルLLM検証:Ollamaのセットアップとクラッシュ、LM Studio 0.4.0のヘッドレスCLI、並列リクエスト制御のロック機構、モバイルLLMの実現可能性調査、そして多言語対応ガイド。
核心の実装:速度と品質を切り替えるデュアルプロンプト、ストリーミングJSON抽出、デバウンス処理、段階的表示のフロントエンド — コード付き。