META FIT GenAI — 生成AIがGANパイプラインを丸ごと置き換えた日

META FIT GenAI — 生成AIによる仮想試着

Part 5からの新章

META FITの前シリーズでは、仮想試着システム構築の20年にわたる道のりを記録しました。フォトブースの構想からGANによる画像生成まで。Part 5は率直な結論で終わりました。標準的な体型では機能するが、体型の多様性、処理速度、衣服の忠実度は未解決のままだと。

それはGANの時代の話です。ここからは、生成AIが登場してからの記録です。

転機：生成AIの到来

移行のきっかけは、生成AIが仮想試着をすでに実用化していたという事実でした。Google Shoppingの仮想試着機能は、多様な体型に対してリアルな試着画像を生成していました。まさに私のGANパイプラインが苦手としていた課題です。同じ技術でPASTA-GAN++を丸ごと置き換えられるのではないか。

さらにライセンス監査が移行を後押ししました。PASTA-GAN++のコードベースを精査した結果、主要5コンポーネントが非商用ライセンスであることが判明しました。

コンポーネント	ライセンス	役割
PASTA-GAN++	非商用研究限定	試着エンジン
StyleGAN2 (NVIDIA)	NVIDIA Source Code NC	ジェネレーター基盤
OpenPose (CMU)	学術非商用	ポーズ検出
PF-AFN	非商用研究限定	ワーピングモジュール
FlowNet2	研究専用	フロー推定

すべてを置き換えなければ商用化は不可能。この制約が、アーキテクチャの全面的な見直しのきっかけとなりました。

新アーキテクチャ：パイプラインからAPIへ

旧システムはマルチステージのパイプラインが必要でした。OpenPoseでポーズ検出、Graphonomyで人体セグメンテーション、PASTA-GAN++で画像生成——すべてNVIDIA GPU付きのDockerコンテナ内で実行していました。

新システムはそのすべてを置き換えました。

旧: 写真 → OpenPose → Graphonomy → PASTA-GAN++ (GPU) → 結果
新: 写真 + 衣服 + プロンプト → Gemini API → 結果

用途に応じて2つのエンジンを使い分けます。

用途	エンジン	入力
商品試着（ECサイト向け）	Vertex AI Virtual Try-On	人物写真 + 商品画像
人物間の着せ替え	Gemini（Nano Banana）	ターゲット人物 + ソース人物

どちらも商用ライセンス。どちらもAPIキー（またはGCPプロジェクト）だけで動作します。GPUインフラは不要です。

成果：体型多様性の課題を克服

最も顕著な改善は体型の多様性——GANアプローチの限界を決定づけていた課題です。

PASTA-GAN++は主にスリムなモデルで学習されていたため、それ以外の体型では衣服が崩壊し、被写体を学習データの分布に向けて「スリム化」する傾向がありました。

生成AIにはそのような学習バイアスがありません。入力画像から体型を理解し、衣服を適切にフィットさせます。

3エンジン比較：多様な体型での結果

左から順に：入力画像、PASTA-GAN++の結果（衣服崩壊・体型スリム化）、Nano Bananaの結果（忠実な体型・きれいな衣服）、Vertex VTOの結果。

差は漸進的なものではなく、世代的な飛躍です。

各エンジンの得意分野

3フェーズ・28テストケースを通じて、明確なパターンが見えてきました。

Nano Banana（Gemini）の強み：

人物間の着せ替え（ある人の服を抽出して別の人に着せる）
体型の忠実な保持（被写体の実際のプロポーションを維持）
アクションポーズ（ダンス、パンチ、ストレッチなど激しい動きにも対応）
異性間の着せ替え（体型を超えて衣服を自然にフィット）

Vertex AI VTOの強み：

商品画像からの試着（平置き商品画像を人物写真に適用）
色・デザインの忠実度（正確な色調と衣服構造の再現）
靴・アクセサリー（アイテム単位の精度）

両方の共通課題：

セーフティフィルターが正当なファッションコンテンツをブロック（露出のある衣服、スポーツウェア）
手足の末端ポーズが変化することがある

技術スタック

レイヤー	技術
試着エンジン（着せ替え）	Gemini 3 Pro Image Preview（Nano Banana）
試着エンジン（商品試着）	Vertex AI Virtual Try-On (`virtual-try-on-001`)
認証	Gemini API Key + GCPサービスアカウント
画像処理	Pillow, OpenCV
ポーズ分析（オプション）	MediaPipe Pose + Face Mesh
言語	Python 3
ソースコード	github.com/matu79go/metafit

開発プロセスの詳細

移行の背景、Gemini APIの実装、プロンプトエンジニアリング、28ケースの体系的テスト、3エンジンの比較分析——技術的な詳細は全3回の連載記事で解説しています。

回	テーマ
第1回	GANから生成AIへ — 移行の理由と方法
第2回	Nano Banana Virtual Try-On — 16テストケースの実験記録
第3回	3エンジン対決 — PASTA-GAN++ vs Nano Banana vs Vertex AI VTO

前シリーズとのつながり

本プロジェクトは、META FIT（GAN時代）とその全5回の連載で記録した内容の上に構築されています。前シリーズではGANの理論、PASTA-GAN++の実装、ポーズ推定、自動採寸を解説しました。その基盤があるからこそ、今回の生成AI移行が実現しました。

課題

解決策

成果