第1回：プリクラからバーチャル試着へ — 20年越しの構想

はじめに

約20年前――スマートフォンが普及する前、ディープラーニングが実用的なツールとして存在する前、「生成AI」という言葉を学術界以外で聞くことがなかった頃――私はシンプルな疑問を抱きました。実際に服を着なくても、自分がその服を着た姿を確認できたら、どうだろう？

この問いは、20年にわたる技術の変遷を経ても消えませんでした。答えにたどり着くには、コンピュータビジョン、敵対的生成ネットワーク（GAN）、人体姿勢推定、など様々な技術的課題をクリアする必要がありました。

第1回では、すべての始まりとなったビジョンと、技術的方向性を決めた研究調査について紹介します。

原点：ファッションのためのプリクラ

日本のゲームセンターに行ったことがある方なら、プリクラをご存知でしょう。ブースに入ってカメラの前でポーズを取り、装飾されたプリントシールが出てくる、日本で何十年も親しまれてきた文化的なアイコンです。

私の最初のコンセプトは、いわば「ファッション版プリクラ」でした。洋服店に置かれたキオスク端末の前に立ち、カタログから服を選ぶと、画面に自分がその服を着た姿がリアルタイムで映し出される。試着室は不要、着替える必要もありません。服が自分にどう見えるかを瞬時に確認できる仕組みです。

当時はこれを実現する技術がありませんでした。画像処理は限定的で、リアルタイムの人体セグメンテーションはまだ研究段階にあり、製品に落とし込めるレベルではなかったのです。アイデアは頭の引き出しにしまわれました。

しかし年月が経つにつれ、状況は大きく変わりました。スマートフォンのカメラが高解像度になり、ディープラーニングのフレームワークが成熟し、そして2014年、Ian Goodfellowが敵対的生成ネットワーク（GAN）を発表しました。この技術がやがて、バーチャル試着を実現可能にしていきます。

キオスク端末というコンセプトは、より身近な形へと進化しました。スマートフォンアプリです。しかし、問いの本質は変わりません。実際に試着しなくても、自分の体型で服がどう見えるかを確認できるのか？

ビジネス課題：なぜこれが重要なのか

バーチャル試着は単なる技術的な興味の対象ではありません。アパレル業界が抱える深刻な経済的課題に直結しています。

オンラインファッション通販の返品率は、驚くほど高いのです。 調査によると、オンラインで購入された衣料品の30〜40%が返品されており、これは他のECカテゴリと比べても非常に高い数字です。主な原因ははっきりしています。購入前に自分の体型でのフィット感やシルエット、生地の落ち感を確認できないことです。

この状況は、どちらにとっても良い結果になりません。

消費者にとって：返品は手間がかかります。再梱包、返送、返金待ち――こうした煩わしさは、オンラインショッピングが本来もたらすはずの利便性を損なってしまいます。
小売業者にとって：返品のたびに配送コスト、倉庫での処理、返品商品の値下げリスク、そして環境負荷が発生します。米国だけでもアパレルの返品コストは年間1,000億ドル以上に上るという試算もあります。

特定の人物の体型で服がどう見えるかを正確に表示できる、信頼性の高いバーチャル試着システムがあれば、こうした返品率を大幅に下げられる可能性があります。仮に返品率を35%から25%に改善できるだけでも、業界全体で数十億ドル規模のコスト削減が見込めます。

これがMETA FITの動機となったビジネスケースです。技術的なハードルは高いものでしたが、実現できた場合のインパクトは明確でした。

VTON研究調査：どんな手法があるのか

コードを1行も書く前に、バーチャル試着（VTON）研究の全体像を調査しました。この分野は2017年頃から活発に研究されており、プロジェクト開始時点で15以上の異なるアプローチが検討に値する状態でした。

各モデルを複数の観点から評価しました。画像品質、身体のカバー範囲（上半身のみか全身か）、ポーズの柔軟性、データ要件（ペアデータか非ペアデータか）、そして実装の実現可能性です。

2D上半身手法

初期のVTON研究は、上半身の衣服転写に焦点を当てていました。人物のトップスを別の衣服に置き換えるという課題です。これらの手法は、後続の研究が土台とする基礎技術を確立しました。

モデル	年	主な技術革新
CAGAN	2017	条件付きアナロジーGAN — 人物画像・現在の衣服・対象衣服の3つ組を使って衣服を交換。コンセプトはシンプルだが、柄物の生地や細部の再現に課題がある。
VITON	2017	マスクベースの衣服ワーピングを導入。大きな前進として、人物画像と対象衣服のみで動作する（現在の衣服画像は不要）。
CP-VTON	2018	パラメータベースのワーピングのためのGeometric Matching Module (GMM)を搭載し、VITONを改良。テクスチャ、ロゴ、衣服構造の保存性能が向上。
WUTON	2019	”try-on”画像と”try-back”画像の両方を教師信号としたエンドツーエンドの敵対的学習。テクスチャや刺繍のより正確な再現を実現。
MG-VTON	2019	バーチャル試着を多様なポーズに拡張。従来の手法は正面向きの固定ポーズでしか動かなかったが、この制約を緩和した。

これらのモデルは、GANベースのバーチャル試着が実現可能であることを示しました。ただし、それぞれに大きな制約がありました。ほとんどのモデルは正面ポーズ、上半身の衣服、比較的シンプルな柄にしか対応できなかったのです。

2D全身手法

次の世代の研究は、上半身の衣服から全身のコーディネートへと対象範囲を広げました。トップスとボトムス、さらにそれらの全身との相互作用を同時に処理するという、格段に難しい課題に取り組んでいます。

モデル	年	主な技術革新
SwapNet	2019	弱教師あり学習によるアプローチで、ワーピングモジュールとテクスチャリングモジュールを分離。ペアデータが不要なため、データ収集の負担が軽くなる。
M2E-TON	2020	Model-to-Everyone — 個別の商品写真なしで、人物画像間で直接衣服を転写。データパイプラインの複雑さを大幅に削減。
O-VITON	2020	非ペアデータから複数アイテムの同時試着（トップスとボトムスの同時処理）を実現。単一衣服手法が抱えていた大きな制約を解消。
PASTA-GAN++	2022	パッチベースのスタイル転写による全身試着。トップス、ボトムス、フルコーディネートをそれぞれ別モードで処理し、ディテールの保存性能に優れる。META FITの主要モデルとして選定。

3Dアプローチ

3D再構成手法も検討しました。特に注目したのはPiFu（Pixel-aligned Implicit Function）で、1枚の2D写真から人体の3Dメッシュを復元する技術です。3Dの体モデルがあれば、物理ベースのドレープシミュレーションによって、理論的にはきわめて精度の高い試着結果を得られるという魅力がありました。

しかし、3D衣服シミュレーションは一気に技術的難易度が上がります――布の物理演算、衝突判定、変形する表面へのテクスチャマッピングなど――初期プロトタイプの範囲を超えていました。3D再構成は将来の有望な方向性として記録にとどめ、第1版では2Dアプローチに集中することにしました。

データセット

この分野の文献で繰り返し登場し、学習と評価の基盤となった3つのデータセットがあります。

VITONデータセット：ペアの上半身試着における標準ベンチマーク。人物画像と対応する衣服画像のペアを含む。
DeepFashion / DeepFashion2：多様なポーズ、衣服カテゴリ、アノテーションを含む大規模データセット。正面ポーズを超えた汎化能力をモデルに学習させるために欠かせない。
Fashionpedia：袖の長さ、襟のタイプ、生地のパターンなど、詳細な属性アノテーション。特定の衣服特性に基づく条件付きモデルに有用。

PASTA-GAN++を選定した理由

全体像を評価した結果、META FITのコアエンジンとしてPASTA-GAN++が最も有力な候補に挙がりました。選定の理由は以下の通りです。

全身をカバーできる。 初期の上半身手法（VITON、CP-VTON）と異なり、PASTA-GAN++は全身を扱えます。実用的なバーチャル試着アプリで、新しいトップスだけを表示してボトムスや靴を無視するのでは不十分です。

マルチガーメントモード。 トップス、ボトムス、フルコーディネートのそれぞれに対応した個別モードを備えています。この柔軟性により、ユーザーは単品でもトータルコーディネートでも試着できます。

パッチベースのディテール保存。 パッチベースのスタイル転写アプローチは、グローバルなアプローチではぼやけたり歪んだりしがちな衣服の細部――柄、テクスチャ、縫い目――を効果的に保存できることが実証されています。

非ペアデータとの互換性。 PASTA-GAN++は非ペアデータでの学習が可能です。つまり、すべての人物画像とすべての衣服画像のペアを用意する必要がありません。カスタムデータセットでファインチューニングする際に必要なデータ収集の負担が大幅に軽くなります。

完璧なモデルはありませんでした。PASTA-GAN++も特定のエッジケース――特殊なポーズ、複雑なレイヤリング、アクセサリー――では苦戦しましたが、当時入手可能な選択肢の中で、性能と実現可能性のバランスが最も優れていました。

次回の予告

この調査を通じて、プロジェクト全体の技術的な土台が固まりました。各アプローチの長所と制約を理解しておくことは、設計上の判断を適切に下すうえで欠かせない作業でした。

次回は、これらすべてのモデルの根幹にある技術――敵対的生成ネットワーク（GAN）――について深く掘り下げ、拡散モデルが登場する以前にGANが画像生成の主流だった理由を解説します。

META FITシリーズ：