Open Dataset
Data Structure ?
11.1G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
DCIGN顔データセットは、深度ネットワークDeep Convolutional Inverse Graphics Networkを用いて顔特徴をモデリングし、顔の角度、照明、材質などの外的条件を除外した顔モデルを構築することを目的としています。
深度畳み込み逆グラフィックスネットワーク(DC - IGN)には、エンコーダとデコーダがあります。私たちは変分オートエンコーダ(KingmaとWelling)のアーキテクチャに従い、いくつかの変更を加えています。エンコーダは数層の畳み込み層とその後の最大プーリング層で構成され、デコーダは数層の非プーリング層(最近傍法を用いたアップサンプリング)とその後の畳み込み層で構成されます。(a) 学習中、データ(x)はエンコーダを通って事後近似値Q(z_i|x)を生成します。ここで、z_iは姿勢、光、テクスチャ、形状などのシーンの潜在変数で構成されています。DC - IGNのパラメータを学習するために、確率的勾配降下法を用いて勾配を逆伝播させ、以下の変分目的関数を使用します:-log(P(x|z_i) + KL(Q(z_i|x)||P(z_i))、各z_iに対して。私たちは、非アクティブとアクティブな変換(例えば顔の回転、特定の方向への光の照射など)のセットを持つミニバッチを提示することで、DC - IGNに分離された表現を学習させることができます。(b) テスト時には、データxをエンコーダに通して潜在変数z_iを取得することができます。適切なグラフィックコードグループ(z_i)を操作するだけで、画像を異なる視点、照明条件、形状変化などに再レンダリングすることができます。これは、既存の3Dグラフィックエンジンの操作方法と同じです。
実行
必要条件
CUDA対応のGPU
cuDNN:NVIDIAのニューラルネットワークライブラリ
cudnn.torch:cuDNNのTorchバインディング
Facebookには、これらをインストールする素晴らしい手順がhttps://github.com/facebook/fbcunn/blob/master/INSTALL.mdにあります。
論文の概要
この論文では、物体の面外回転、照明の変化、テクスチャなどの様々な変換に関して分離された、画像の解釈可能な表現を学習することを目的とした深度畳み込み逆グラフィックスネットワーク(DC - IGN)を提案します。DC - IGNモデルは、複数層の畳み込み演算子と逆畳み込み演算子で構成され、確率的勾配変分ベイズ(SGVB)アルゴリズムを用いて学習されます。私たちは、グラフィックコード層のニューロンに意味を持たせ、各グループに特定の変換(姿勢、光、テクスチャ、形状など)を明確に表現させる学習手順を提案します。静的な顔画像が与えられた場合、私たちのモデルは、基本顔から異なる姿勢、照明、さらにはテクスチャや形状の変化を伴った入力画像を再生成することができます。私たちは、3Dレンダリングエンジンを学習するモデルの有効性に関する定性的および定量的な結果を提示します。さらに、学習された表現を2つの重要な視覚認識タスクに利用します:(1) 不変顔認識タスク、および(2) 生成モデリングの要約統計量としての表現の利用。
謝辞
すべてのTorch開発者に大きな感謝を送ります。Torchは本当に素晴らしいです。バーゼル顔モデルへのアクセスを許してくれたThomas Vetterに感謝します。T. Kulkarniは、Leventhalフェローシップによって恵まれて支援されていました。この研究は、ONRの助成金N000141310333、ARO MURI W911NF - 13 - 1 - 2012およびCBMMによって支援されました。また、変分オートエンコーダのコードをオンラインで公開してくれた(y0ast) https://github.com/y0astにも感謝します。
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.