Anthropic時代のTokenmaxxing問題:AIスタートアップの新たな参入余地
![]()
AIで人間の仕事を置き換えれば、企業の利益率は改善する。
これが、ここ数年のAI導入をめぐる大きな期待でした。 特にソフトウェア開発、カスタマーサポート、バックオフィス業務では、AIエージェントやAIコーディングツールを使うことで、人件費を抑えながら生産性を高められると考えられてきました。
しかし、最近のニュースを見ると、その見立ては少し単純すぎたのかもしれません。
人件費は下がるかもしれない。 しかし、その裏側で、AI推論コストが膨らみ始めているからです。
象徴的なのが、AnthropicのClaude Codeです。
Business Insiderによれば、AnthropicはClaude Codeについて、エンタープライズ開発者1人あたりの平均トークン利用コストの見積もりを、従来の1日6ドルから13ドルへ引き上げました。90%のユーザーが収まる範囲も、従来の1日12ドル以下から30ドル以下へ引き上げられています。月間では、開発者1人あたり150〜250ドル程度が目安とされています(Business Insider: Anthropic Doubles Estimate for Claude Code Token Spend)。
この数字だけを見ると、まだ大きな問題には見えないかもしれません。
しかし、企業全体で数千人のエンジニアが使い、さらにAIエージェントが自律的にコード生成、テスト、修正、再試行を繰り返すようになると、話は変わります。
AIのコストは、従来のSaaSのように「1人あたり月額いくら」で止まりません。 利用すればするほど、トークン、API呼び出し、コンテキスト、再試行、ツール実行のコストが積み上がります。
この問題を象徴する言葉が、Tokenmaxxing です。
ただし、私はこれを単なるコスト増の話とは見ていません。
むしろ、Tokenmaxxingという問題が広がるほど、AIスタートアップに新しい参入余地が生まれると考えています。
企業がAIを本格導入すればするほど、必要になるのは「より高性能なモデル」だけではありません。 必要になるのは、どのタスクに、どのモデルを、いくらで使い、どの成果につながったのかを測るインフラです。
つまり、Tokenmaxxingの拡大は、モデル・ルーティング、AIエージェント監視、cost per task測定を担うAIインフラスタートアップにとって、重要な市場機会になる可能性があります。
Tokenmaxxingとは何か
Tokenmaxxingとは、AIの利用量、とくにトークン消費量を増やすこと自体が、AIを使いこなしている証として礼賛される現象です。
トークンとは、LLMが文章、コード、会話履歴、ツール実行結果などを処理するときの単位です。 入力、出力、エージェントの中間処理、長いコンテキスト、再試行のログまで、すべてがコストになります。
本来、企業が見るべきなのは、トークン消費量そのものではありません。
見るべきなのは、次のような生産効率です。
| 見るべき指標 | 内容 |
|---|---|
| どのタスクに使ったか | コーディング、要約、分類、調査、サポート対応など |
| いくらかかったか | トークン、API、推論、ツール実行コスト |
| どれだけ成果が出たか | 採用されたコード、解決された問い合わせ、短縮された時間 |
| 人間の作業と比べて合理的か | コスト、品質、速度、リスクの比較 |
しかし、AI導入初期の企業では、ここが逆転しやすくなります。
「AIを使っている社員は生産性が高い」 「トークンを多く使う社員はAI活用が進んでいる」 「エージェントを大量に走らせるほど先進的だ」
こうした空気が生まれると、トークン消費は成果指標ではなく、社内ゲームのスコアになります。
これは、Goodhartの法則そのものです。 測定指標が目標になると、その指標は壊れます。
かつては、コード行数やコミット数を生産性の指標にすると、開発者が本質的な品質ではなく、行数やコミット数を増やす方向へ最適化してしまう問題がありました。
2026年版では、その指標が「トークン消費量」になったと見ることができます。
直近のニュースで見える企業事例
Tokenmaxxingは、抽象的な概念ではありません。 すでに複数の企業で、AI利用量とAIコストの増大が問題になり始めています。
| 企業 | 報道されている動き | 見るべきポイント |
|---|---|---|
| Anthropic / Claude Code | Claude Codeの開発者1人あたり想定コストを引き上げ | AIコーディングが普及するほど、企業側の推論コスト管理が重要になる |
| Uber | Claude CodeやCursorなどの利用増により、2026年AI予算を年初から数カ月で使い切ったと報道 | AIツールが便利すぎることで、利用量が予算モデルを上回る |
| Amazon | 社内AI利用スコアやリーダーボードが、不要なAI利用を誘発したと報道 | AI利用量を可視化しすぎると、社員が指標をゲーム化する |
| Meta | Claudeonomicsと呼ばれるトークン消費ランキングが作られ、30日間で60兆トークン超の利用が報じられた | トークン消費が「AI活用度」のように見えてしまう |
| Spotify | レイオフ後も、残った社員のAIツール利用により、従業員1人あたりのコンピューティング費用が増大したと報道 | 人員削減とAIコスト増が同時に起こる |
| Shopify / Roblox | AIアシスタントや開発者向けAI機能の利用増が、推論コストを押し上げていると報道 | ユーザーが使えば使うほど、提供側のLLMコストが増える |
Uberについては、AI Magazineが、同社が2026年のAI予算を数カ月で使い切ったと報じています。同記事では、Claude CodeやCursorの利用増が背景にあるとされています(AI Magazine: Why Uber has Already Burned Through its AI Budget)。
Amazonについては、社内AIツール「MeshClaw」を使い、不要なタスクまでAIエージェントに任せて利用スコアを稼ぐ従業員がいたと報じられています。また、開発者の80%以上に週次でAIを使わせる目標や、トークン消費のリーダーボードが、意図せず競争的な行動を生んだとされています(Financial Times: Amazon staff use AI tool for unnecessary tasks to inflate usage scores)。
Metaでは、従業員が作ったとされる「Claudeonomics」というランキングで、約8.5万人の従業員のトークン使用量が可視化され、30日間で60兆トークン超が消費されたと報じられています(Fortune: A Meta employee created a dashboard so coworkers can compete to be the company’s No. 1 AI token user)。
Spotify、Shopify、Robloxなどについては、The Informationが、AIによる人件費削減効果の一方で、AIツールやLLM推論コストが利益率を圧迫し始めていると報じています(The Information: Tech’s AI Margin Math Is Getting Messier)。
ここで重要なのは、これらを単なる「AIコストの失敗例」として見ることではありません。
むしろ、企業がAIを本格的に使い始めた結果、次に必要なインフラが見えてきたと考えるべきです。
本質は「労働力から計算資源への置き換え」
AI導入は、単純なコスト削減ではありません。
AIによって削減されるのは、人間の作業時間です。 しかし、その代わりに増えるのは、GPU、API、トークン、ストレージ、ログ、監視、セキュリティ、評価といった計算資源のコストです。
つまり、企業のコスト構造は次のように変わります。
| 従来 | AI導入後 |
|---|---|
| 人件費 | AI推論コスト |
| SaaSの月額ライセンス | トークン従量課金 |
| 人間の作業時間 | エージェントの実行時間 |
| 上司による進捗確認 | ログ、トレース、評価、監視 |
| 業務委託費 | モデル利用料、API費用、クラウド費用 |
これは、単なる効率化ではありません。 企業の費用構造が、労働集約型から計算資源集約型へ移っているということです。
その意味で、AI導入企業がこれから見るべき指標は「どれだけAIを使ったか」ではありません。
見るべきなのは、cost per task です。
そして、ここからAIスタートアップの参入余地が生まれます。
企業が自社で、すべてのAI利用を細かく分析し、モデルごとの費用対効果を測り、エージェントの行動を監視し、最適なモデルへルーティングするのは簡単ではありません。
この「AI利用の運用管理」こそが、次のスタートアップ領域になると考えています。
次の指標は cost per task
cost per taskとは、1つのタスクを完了するのに、AIがいくらかかったかを見る考え方です。
たとえば、メール返信にClaude Opus級の高価なモデルを使う必要はありません。 短い要約、分類、タグ付け、定型文の生成であれば、小型モデルや低コストモデルで十分な場合があります。
一方で、複雑なコード修正、法務文書、M&Aモデル、医療カルテ、金融リスク分析のような領域では、高性能モデルと監視が必要になります。
つまり、同じAI利用でも、タスクごとに最適なモデルは違います。
| タスク | 適したモデル・構成 |
|---|---|
| 単純な分類 | 小型モデル |
| 短い要約 | 低コストモデル |
| 社内文書検索 | RAG + 中価格モデル |
| コード修正 | 高性能モデル |
| 法務・医療・財務 | 高性能モデル + 監視 |
| 定期監視エージェント | 軽量モデル |
| 最終判断 | 高性能モデル + 人間の確認 |
ここで重要なのは、最高性能モデルを使うことではありません。 必要な場所だけに高価なモデルを使うことです。
AIの導入効果は、消費トークン量ではなく、タスク単位の費用対効果で測られるようになるはずです。
そして、このcost per taskを測定・改善する仕組みは、企業にとって新しいAIインフラになります。
モデル・ルーティングという参入余地
この流れの中で重要になるのが、モデル・ルーティングです。
モデル・ルーティングとは、1つのAIモデルにすべてを任せるのではなく、タスクの難易度、必要精度、速度、コスト、リスクに応じて、複数モデルを使い分ける仕組みです。
たとえば、次のような判断を自動化します。
「このタスクはClaude Codeである必要があるのか」 「この処理はGPT系モデルで十分なのか」 「LlamaやMistralのようなオープンソースモデルで足りるのか」 「高価なモデルは最後の検証だけに使えばよいのではないか」
代表例の一つが、Martianです。
Accentureは2024年にMartianへの投資を発表しており、Martianは大規模言語モデルへのクエリを動的にルーティングし、より効果的なAIシステムを企業に提供する企業として紹介されています。Martian自身も、自社のモデルルーターについて、各クエリに対して最適なAIモデルを動的に選択し、性能、コスト、稼働率、その他のビジネス要件を最適化する仕組みだと説明しています(Accenture Newsroom: Accenture Invests in Martian to Bring Dynamic Routing of Large Language Queries、Martian: Partners with Accenture, Launches Airlock Compliance for Enterprises)。
クラウド時代に、企業が物理サーバーを直接意識しなくなったように、AI時代には、企業が毎回「どのモデルを使うべきか」を人間の勘で判断するのではなく、ルーターがタスクごとに最適なモデルを選ぶようになる可能性があります。
なぜ大手AIラボは本気でやりにくいのか
この領域が面白いのは、大手AIラボが構造的に本気でやりにくい点です。
OpenAI、Anthropic、Google、Microsoftは、自社モデルや自社クラウドの利用を増やしたい立場です。 しかし、中立的なモデルルーターは、場合によってはこう判断します。
「このタスクに高価なClaudeは不要」 「この処理はGPTより安いオープンソースモデルで十分」 「Geminiではなく、Llamaでよい」 「高性能モデルは最後の検証だけでよい」
これは、ユーザー企業にとっては合理的です。 しかし、大手AIラボにとっては、自社のトークン売上を削る可能性があります。
もちろん、大手AIラボも自社モデル内でのルーティング、軽量モデル、キャッシュ、バッチ処理、推論最適化は進めるはずです。
しかし、企業横断で「そのタスクなら他社モデルの方が安くて十分」と中立的に判断する仕組みは、スタートアップの方が作りやすいところに、AIインフラスタートアップの参入余地があります。
モデルそのものが価値を持つ時代から、モデルをどう選び、どう組み合わせ、どう監視し、どう費用対効果を測るかが価値になる時代へ移りつつあります。
AIエージェント監視という参入余地
もう一つ重要になるのが、AIエージェントの監視レイヤーです。
AIエージェントは、単に最終回答を出すだけではありません。 計画を立て、検索し、ツールを呼び出し、失敗すれば再試行し、途中結果を評価し、最後に出力します。
Tokenmaxxingの問題は、この途中で発生します。
| 問題 | 内容 |
|---|---|
| 不要なモデル呼び出し | 小さな判断にも高価なモデルを使う |
| 過剰な再試行 | 失敗した処理を何度も繰り返す |
| 長すぎるコンテキスト | 不要な会話履歴やログを抱え続ける |
| ツール実行の浪費 | 必要ない検索やAPI呼び出しを繰り返す |
| 成果との非連動 | トークンを使っているが、成果につながっていない |
この領域で注目したいのが、Judgment Labsです。
Judgment Labsは2026年5月、Lightspeed Venture Partners主導で、シードとシリーズAを合わせて3200万ドルを調達したと発表しました。同社は、AIエージェントの継続的改善レイヤーを構築する企業として説明されています(Business Wire: Judgment Labs Closes $32M in Seed and Series A Funding)。
これは、単なるログ管理ではありません。
AIエージェントの行動ログを、会社ごとの成果指標と結びつけるレイヤーです。
たとえば、カスタマーサポートなら、問い合わせ解決率、再問い合わせ率、顧客満足度。 コード生成なら、Pull Requestの採用率、テスト通過率、修正後のバグ率。 営業支援なら、返信率、商談化率、契約率。
会社ごとに成果の定義は違います。
Judgment Labsのような監視レイヤーは、その成果指標とAIエージェントの行動ログを結びつけることで、次の問いに答えようとします。
どのステップで失敗したのか。 どこでトークンを浪費したのか。 どのモデル呼び出しが不要だったのか。 どのプロセスが成果に結びつかなかったのか。
これが見えると、企業は初めて cost per task を測れるようになります。
つまり、Tokenmaxxing問題は、モデル・ルーティングだけでなく、AIエージェント監視という新しいスタートアップ領域も生み出していると考えられます。
投資家として見るべきポイント
投資家として見ると、このテーマは単なるAIツールのコスト問題ではありません。
AI時代の収益構造が、次の3層に分かれ始めていることを示しています。
| レイヤー | 代表例 | 収益機会 |
|---|---|---|
| モデル提供者 | Anthropic、OpenAI、Google | トークン消費増が売上増につながる |
| AI導入企業 | Uber、Spotify、Shopify、Robloxなど | 人件費削減と推論コスト増のバランスが課題 |
| AIインフラ最適化 | Martian、Judgment Labsなど | コスト管理、モデル選択、監視、評価が価値になる |
Anthropicにとって、Claude Codeの利用拡大は明確な追い風です。
Claude Codeが伸びるほど、Anthropicの売上は増えます。 しかし、ユーザー企業側では、その分だけAIコスト管理が重要になります。
つまり、Anthropicの成長は、同時にMartianやJudgment LabsのようなAIインフラ企業の需要を生む可能性があります。
これは、クラウド市場でAWS、Azure、Google Cloudが伸びた結果、Datadog、Snowflake、Cloudflare、FinOps系ツールのような周辺レイヤーが成長した構図に似ています。
モデル企業が伸びるほど、モデルを使う企業側には、コスト管理、監視、セキュリティ、評価、ルーティングが必要になります。
ここに、大手AIラボとは違う形で、AIスタートアップが入り込む余地があります。
別の見方
もちろん、別の見方もあります。
AIコストが増えていることは、必ずしも悪いニュースではありません。 むしろ、AIツールが本当に使われ始めた証拠とも言えます。
Uberのように、エンジニアの大半がAIツールを使い、コードの大きな割合がAIによって生成されるのであれば、短期的にコストが増えるのは自然です。
新しいインフラは、導入初期には必ず無駄が出ます。
クラウドも最初は同じでした。 使えばすぐにスケールできる一方で、放置されたインスタンス、過剰なストレージ、不要なログ、無駄なデータ転送費が積み上がりました。
その後、クラウドにはFinOps、オブザーバビリティ、セキュリティ、コスト最適化ツールが生まれました。
AIでも同じことが起きているだけかもしれません。
つまり、TokenmaxxingはAI導入の失敗ではなく、AIが本番利用に入ったことで初めて見えてきた運用課題です。
そして、運用課題が見えてきたということは、それを解決するスタートアップに市場が生まれ始めたということでもあります。
まとめ
Tokenmaxxingは、AI導入初期の副作用です。
しかし、私はこれを単なる企業のコスト管理問題とは見ていません。 むしろ、AIスタートアップにとっての新しい参入機会だと考えています。
AnthropicやOpenAIのような大手AIラボは、基本的には自社モデルの利用が増えるほど売上が伸びる構造にあります。 そのため、「このタスクには高価なClaudeは不要」「この処理はGPTではなく、安価なオープンソースモデルで十分」と中立的に判断する仕組みを、本気で作るのは難しい面があります。
一方で、AIを導入する企業側にとっては、すべてを最高性能モデルに投げ続けることは合理的ではありません。
単純な分類には小型モデル。 短い要約には低コストモデル。 複雑なコード修正には高性能モデル。 法務・医療・財務のような高リスク領域には、高性能モデルと監視。
このように、タスクごとに最適なモデルを選び、エージェントの行動を監視し、成果1件あたりのAIコストを測る仕組みが必要になります。
ここに、Martianのようなモデル・ルーティング企業や、Judgment LabsのようなAIエージェント監視企業が入り込む余地があります。
クラウドの普及が、Datadog、Cloudflare、FinOps、セキュリティ企業を生んだように、AI利用の拡大は、モデルを直接作る企業だけでなく、モデル利用を最適化する中立的なインフラ企業を生むはずです。
Tokenmaxxingの本質は、企業のAIコスト問題であると同時に、AIインフラスタートアップにとっての新しい市場の入口でもあると考えます。この記事についてのLinkedIn投稿でコメントや意見を共有できます。
LinkedInで議論する