千里眼:AI株価予測シリーズ

企業ニュースを読み解き、ファインチューニングしたLLMで翌日の株価変動を予測するAIサービスの構築記録。

8記事

第1回:きっかけと全体像 — ChatGPTがファンドマネージャーに勝った日
第1回

第1回:きっかけと全体像 — ChatGPTがファンドマネージャーに勝った日

ChatGPTがプロのファンドマネージャーを上回ったという実験に触発され、LLMファインチューニングで日本株の株価予測AIサービス「千里眼」を構築するまでの全体像を紹介します。

続きを読む →
第2回:ローカルGPUでの挑戦と挫折 — RTX 3060の6GBで8Bモデルに挑む
第2回

第2回:ローカルGPUでの挑戦と挫折 — RTX 3060の6GBで8Bモデルに挑む

ノートPC搭載のRTX 3060(6GB VRAM)でELYZA 8Bモデルのファインチューニングに挑戦し、VRAM不足で断念するまでの過程と、そこから得た教訓を記録します。

続きを読む →
第3回:LoRAと量子化の技術解説 — LLMを軽くする仕組みたち
第3回

第3回:LoRAと量子化の技術解説 — LLMを軽くする仕組みたち

LLMファインチューニングに不可欠な軽量化技術であるLoRA、量子化、QLoRAの仕組みを解説し、架空の事実をモデルに学習させる「富士山実験」で技術の有効性を実証します。

続きを読む →
第4回:Colabで株価予測 — 3モデルの試行錯誤
第4回

第4回:Colabで株価予測 — 3モデルの試行錯誤

Google ColabのT4 GPUでELYZA 8BとLLM-jp 7.2Bを使い株価予測ファインチューニングに挑戦。精度不足に直面しつつも、追加学習やGGUF変換など多くの技術的知見を得た過程を記録します。

続きを読む →
第5回:OpenAI APIファインチューニング — 約8分で完了した最終解
第5回

第5回:OpenAI APIファインチューニング — 約8分で完了した最終解

OpenAI APIのファインチューニングでgpt-4o-miniをカスタマイズし、約8分の学習で安定したJSON出力と十分な予測精度を実現。データ準備の苦労と、Colabとの決定的な違いを詳しく解説します。

続きを読む →
第6回:訓練データの設計 — 5種類のデータをどう統合したか
第6回

第6回:訓練データの設計 — 5種類のデータをどう統合したか

LLMファインチューニングにおける訓練データの設計思想を解説。企業情報・ニュース・株価・財務・マクロ経済指標の5種類のデータ統合、正解ラベルの作り方、8バージョンに及ぶ試行錯誤の過程を記録します。

続きを読む →
第7回:翻訳LLMの選定 — DeepSeekからChatGPTへ
第7回

第7回:翻訳LLMの選定 — DeepSeekからChatGPTへ

翻訳用LLMプロバイダとしてDeepSeekを導入したところ、処理速度・中国語混入・入力データ漏洩の3つの問題が発生。ChatGPTへの統一に至った経緯と、LLMプロバイダ選定の教訓をまとめます。

続きを読む →
第8回:MySQL→Firestore移行と本番運用 — RDBからNoSQLへの道
第8回

第8回:MySQL→Firestore移行と本番運用 — RDBからNoSQLへの道

連載最終回。MySQLからFirestoreへのデータ移行で直面したインデックス設計・Upsert戦略・書き込み課金との戦い、そして千里眼サービスの本番運用アーキテクチャの全体像をまとめます。

続きを読む →