META FIT GenAI — 生成AIがGANパイプラインを丸ごと置き換えた日

課題

GoogleはすでにGoogle Shoppingに生成AI仮想試着を実装していた。同じ技術でPASTA-GAN++パイプラインを丸ごと置き換えられるか——GANでは解決できなかった体型多様性・処理速度・インフラの問題を一挙に解消できるか。既存システムは非商用ライセンスの制約もあり、製品化への道が閉ざされていた。

解決策

GANパイプライン全体をGoogleの生成AI APIで置き換えた。Gemini(Nano Banana)による人物間の着せ替えと、Vertex AI Virtual Try-Onによる商品画像からの試着という2エンジン構成を構築。多様な体型、アクションポーズ、複雑な衣服パターンをカバーする28のテストケースで検証を実施。

成果

体型の多様性、衣服の忠実度、顔の品質すべてにおいて劇的な改善を達成。APIキー1つ、GPUインフラゼロで実現。生成AIがGANベースの仮想試着の根本的な限界を解消することを確認した。

META FIT GenAI — 生成AIによる仮想試着

Part 5からの新章

META FITの前シリーズでは、仮想試着システム構築の20年にわたる道のりを記録しました。フォトブースの構想からGANによる画像生成まで。Part 5は率直な結論で終わりました。標準的な体型では機能するが、体型の多様性、処理速度、衣服の忠実度は未解決のままだと。

それはGANの時代の話です。ここからは、生成AIが登場してからの記録です。


転機:生成AIの到来

移行のきっかけは、生成AIが仮想試着をすでに実用化していたという事実でした。Google Shoppingの仮想試着機能は、多様な体型に対してリアルな試着画像を生成していました。まさに私のGANパイプラインが苦手としていた課題です。同じ技術でPASTA-GAN++を丸ごと置き換えられるのではないか。

さらにライセンス監査が移行を後押ししました。PASTA-GAN++のコードベースを精査した結果、主要5コンポーネントが非商用ライセンスであることが判明しました。

コンポーネントライセンス役割
PASTA-GAN++非商用研究限定試着エンジン
StyleGAN2 (NVIDIA)NVIDIA Source Code NCジェネレーター基盤
OpenPose (CMU)学術非商用ポーズ検出
PF-AFN非商用研究限定ワーピングモジュール
FlowNet2研究専用フロー推定

すべてを置き換えなければ商用化は不可能。この制約が、アーキテクチャの全面的な見直しのきっかけとなりました。


新アーキテクチャ:パイプラインからAPIへ

旧システムはマルチステージのパイプラインが必要でした。OpenPoseでポーズ検出、Graphonomyで人体セグメンテーション、PASTA-GAN++で画像生成——すべてNVIDIA GPU付きのDockerコンテナ内で実行していました。

新システムはそのすべてを置き換えました。

旧: 写真 → OpenPose → Graphonomy → PASTA-GAN++ (GPU) → 結果
新: 写真 + 衣服 + プロンプト → Gemini API → 結果

用途に応じて2つのエンジンを使い分けます。

用途エンジン入力
商品試着(ECサイト向け)Vertex AI Virtual Try-On人物写真 + 商品画像
人物間の着せ替えGemini(Nano Banana)ターゲット人物 + ソース人物

どちらも商用ライセンス。どちらもAPIキー(またはGCPプロジェクト)だけで動作します。GPUインフラは不要です。


成果:体型多様性の課題を克服

最も顕著な改善は体型の多様性——GANアプローチの限界を決定づけていた課題です。

PASTA-GAN++は主にスリムなモデルで学習されていたため、それ以外の体型では衣服が崩壊し、被写体を学習データの分布に向けて「スリム化」する傾向がありました。

生成AIにはそのような学習バイアスがありません。入力画像から体型を理解し、衣服を適切にフィットさせます。

3エンジン比較:多様な体型での結果

左から順に:入力画像、PASTA-GAN++の結果(衣服崩壊・体型スリム化)、Nano Bananaの結果(忠実な体型・きれいな衣服)、Vertex VTOの結果。

差は漸進的なものではなく、世代的な飛躍です。


各エンジンの得意分野

3フェーズ・28テストケースを通じて、明確なパターンが見えてきました。

Nano Banana(Gemini)の強み:

  • 人物間の着せ替え(ある人の服を抽出して別の人に着せる)
  • 体型の忠実な保持(被写体の実際のプロポーションを維持)
  • アクションポーズ(ダンス、パンチ、ストレッチなど激しい動きにも対応)
  • 異性間の着せ替え(体型を超えて衣服を自然にフィット)

Vertex AI VTOの強み:

  • 商品画像からの試着(平置き商品画像を人物写真に適用)
  • 色・デザインの忠実度(正確な色調と衣服構造の再現)
  • 靴・アクセサリー(アイテム単位の精度)

両方の共通課題:

  • セーフティフィルターが正当なファッションコンテンツをブロック(露出のある衣服、スポーツウェア)
  • 手足の末端ポーズが変化することがある

技術スタック

レイヤー技術
試着エンジン(着せ替え)Gemini 3 Pro Image Preview(Nano Banana)
試着エンジン(商品試着)Vertex AI Virtual Try-On (virtual-try-on-001)
認証Gemini API Key + GCPサービスアカウント
画像処理Pillow, OpenCV
ポーズ分析(オプション)MediaPipe Pose + Face Mesh
言語Python 3
ソースコードgithub.com/matu79go/metafit

開発プロセスの詳細

移行の背景、Gemini APIの実装、プロンプトエンジニアリング、28ケースの体系的テスト、3エンジンの比較分析——技術的な詳細は全3回の連載記事で解説しています。

テーマ
第1回GANから生成AIへ — 移行の理由と方法
第2回Nano Banana Virtual Try-On — 16テストケースの実験記録
第3回3エンジン対決 — PASTA-GAN++ vs Nano Banana vs Vertex AI VTO

前シリーズとのつながり

本プロジェクトは、META FIT(GAN時代)とその全5回の連載で記録した内容の上に構築されています。前シリーズではGANの理論、PASTA-GAN++の実装、ポーズ推定、自動採寸を解説しました。その基盤があるからこそ、今回の生成AI移行が実現しました。

この記事をシェア

この記事についてのLinkedIn投稿でコメントや意見を共有できます。

LinkedInで議論する