META FIT GenAI — 生成AIがGANパイプラインを丸ごと置き換えた日
課題
GoogleはすでにGoogle Shoppingに生成AI仮想試着を実装していた。同じ技術でPASTA-GAN++パイプラインを丸ごと置き換えられるか——GANでは解決できなかった体型多様性・処理速度・インフラの問題を一挙に解消できるか。既存システムは非商用ライセンスの制約もあり、製品化への道が閉ざされていた。
解決策
GANパイプライン全体をGoogleの生成AI APIで置き換えた。Gemini(Nano Banana)による人物間の着せ替えと、Vertex AI Virtual Try-Onによる商品画像からの試着という2エンジン構成を構築。多様な体型、アクションポーズ、複雑な衣服パターンをカバーする28のテストケースで検証を実施。
成果
体型の多様性、衣服の忠実度、顔の品質すべてにおいて劇的な改善を達成。APIキー1つ、GPUインフラゼロで実現。生成AIがGANベースの仮想試着の根本的な限界を解消することを確認した。
![]()
Part 5からの新章
META FITの前シリーズでは、仮想試着システム構築の20年にわたる道のりを記録しました。フォトブースの構想からGANによる画像生成まで。Part 5は率直な結論で終わりました。標準的な体型では機能するが、体型の多様性、処理速度、衣服の忠実度は未解決のままだと。
それはGANの時代の話です。ここからは、生成AIが登場してからの記録です。
転機:生成AIの到来
移行のきっかけは、生成AIが仮想試着をすでに実用化していたという事実でした。Google Shoppingの仮想試着機能は、多様な体型に対してリアルな試着画像を生成していました。まさに私のGANパイプラインが苦手としていた課題です。同じ技術でPASTA-GAN++を丸ごと置き換えられるのではないか。
さらにライセンス監査が移行を後押ししました。PASTA-GAN++のコードベースを精査した結果、主要5コンポーネントが非商用ライセンスであることが判明しました。
| コンポーネント | ライセンス | 役割 |
|---|---|---|
| PASTA-GAN++ | 非商用研究限定 | 試着エンジン |
| StyleGAN2 (NVIDIA) | NVIDIA Source Code NC | ジェネレーター基盤 |
| OpenPose (CMU) | 学術非商用 | ポーズ検出 |
| PF-AFN | 非商用研究限定 | ワーピングモジュール |
| FlowNet2 | 研究専用 | フロー推定 |
すべてを置き換えなければ商用化は不可能。この制約が、アーキテクチャの全面的な見直しのきっかけとなりました。
新アーキテクチャ:パイプラインからAPIへ
旧システムはマルチステージのパイプラインが必要でした。OpenPoseでポーズ検出、Graphonomyで人体セグメンテーション、PASTA-GAN++で画像生成——すべてNVIDIA GPU付きのDockerコンテナ内で実行していました。
新システムはそのすべてを置き換えました。
旧: 写真 → OpenPose → Graphonomy → PASTA-GAN++ (GPU) → 結果
新: 写真 + 衣服 + プロンプト → Gemini API → 結果
用途に応じて2つのエンジンを使い分けます。
| 用途 | エンジン | 入力 |
|---|---|---|
| 商品試着(ECサイト向け) | Vertex AI Virtual Try-On | 人物写真 + 商品画像 |
| 人物間の着せ替え | Gemini(Nano Banana) | ターゲット人物 + ソース人物 |
どちらも商用ライセンス。どちらもAPIキー(またはGCPプロジェクト)だけで動作します。GPUインフラは不要です。
成果:体型多様性の課題を克服
最も顕著な改善は体型の多様性——GANアプローチの限界を決定づけていた課題です。
PASTA-GAN++は主にスリムなモデルで学習されていたため、それ以外の体型では衣服が崩壊し、被写体を学習データの分布に向けて「スリム化」する傾向がありました。
生成AIにはそのような学習バイアスがありません。入力画像から体型を理解し、衣服を適切にフィットさせます。

左から順に:入力画像、PASTA-GAN++の結果(衣服崩壊・体型スリム化)、Nano Bananaの結果(忠実な体型・きれいな衣服)、Vertex VTOの結果。
差は漸進的なものではなく、世代的な飛躍です。
各エンジンの得意分野
3フェーズ・28テストケースを通じて、明確なパターンが見えてきました。
Nano Banana(Gemini)の強み:
- 人物間の着せ替え(ある人の服を抽出して別の人に着せる)
- 体型の忠実な保持(被写体の実際のプロポーションを維持)
- アクションポーズ(ダンス、パンチ、ストレッチなど激しい動きにも対応)
- 異性間の着せ替え(体型を超えて衣服を自然にフィット)
Vertex AI VTOの強み:
- 商品画像からの試着(平置き商品画像を人物写真に適用)
- 色・デザインの忠実度(正確な色調と衣服構造の再現)
- 靴・アクセサリー(アイテム単位の精度)
両方の共通課題:
- セーフティフィルターが正当なファッションコンテンツをブロック(露出のある衣服、スポーツウェア)
- 手足の末端ポーズが変化することがある
技術スタック
| レイヤー | 技術 |
|---|---|
| 試着エンジン(着せ替え) | Gemini 3 Pro Image Preview(Nano Banana) |
| 試着エンジン(商品試着) | Vertex AI Virtual Try-On (virtual-try-on-001) |
| 認証 | Gemini API Key + GCPサービスアカウント |
| 画像処理 | Pillow, OpenCV |
| ポーズ分析(オプション) | MediaPipe Pose + Face Mesh |
| 言語 | Python 3 |
| ソースコード | github.com/matu79go/metafit |
開発プロセスの詳細
移行の背景、Gemini APIの実装、プロンプトエンジニアリング、28ケースの体系的テスト、3エンジンの比較分析——技術的な詳細は全3回の連載記事で解説しています。
| 回 | テーマ |
|---|---|
| 第1回 | GANから生成AIへ — 移行の理由と方法 |
| 第2回 | Nano Banana Virtual Try-On — 16テストケースの実験記録 |
| 第3回 | 3エンジン対決 — PASTA-GAN++ vs Nano Banana vs Vertex AI VTO |
前シリーズとのつながり
本プロジェクトは、META FIT(GAN時代)とその全5回の連載で記録した内容の上に構築されています。前シリーズではGANの理論、PASTA-GAN++の実装、ポーズ推定、自動採寸を解説しました。その基盤があるからこそ、今回の生成AI移行が実現しました。
この記事についてのLinkedIn投稿でコメントや意見を共有できます。
LinkedInで議論する