Open Dataset
Data Structure ?
842M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
UT Zappos50K(UT - Zap50K)は、大型の靴類データセットで、Zappos.comから収集した50025枚のカタログ画像で構成されています。これらの画像は、靴、サンダル、スリッパ、ブーツの4つの大きなカテゴリに分けられ、さらに機能タイプや個々のブランドに分類されます。靴は白色背景の中央に配置され、同じ方向から撮影されており、分析を容易にしています。
このデータセットは、オンラインショッピングタスクの文脈で作成されたもので、ユーザーは特に細粒度の視覚的な違いに注目します。例えば、ショッパーは、女性用のハイヒールと男性用のスリッパの間で選択するよりも、似たような男性用ランニングシューズの2足の間で選択する可能性が高いです。GISTとLAB色の特徴が提供されます。さらに、各画像には、Zappos.comで靴をフィルタリングするための8つの関連するメタデータ(性別、素材など)のラベルが付けられています。
我々は、ペア比較タスクの文脈でこのデータセットを導入しました。このタスクの目標は、2つの画像のどちらが視覚的属性をより強く表現しているかを予測することです。新しい画像ペアが与えられたとき、我々は「画像aは画像Bよりも多くまたは少なく属性を含んでいるか?」という質問に答えたいと思います。学習と評価は両方ともペアラベルを使用して行われます。
しかし、このデータセットの有用性は、我々が示した比較タスクを超えています。メタデータラベルとデータセットの大きさも、他のタスク、例えば以下のようなタスクに適しています。
1、カテゴリ/ブランド分類
2、論理に基づく細粒度属性学習
3、性別固有のスタイルコーディネート
4、ゼロショット学習
注釈
Mechanical Turkを使用して、我々は4つの相対属性のインスタンスレベル†比較ラベルを収集しました:開放的、尖った、スポーティー、快適。我々は、可能な50K²ペアから3000ペアの画像を抽出し、カテゴリ内および性別内の画像に強い偏りを持たせました。我々は、5人の作業者に各ペアの属性を評価してもらいました(詳細は後述)。信頼度または一致性が低いペアを除外した後、人間による注釈のサンプルは、6751個の順序付きペアと4612個の「同等」ペアで構成されます。これはUT - Zap50K - 1と呼ばれます。
「同等」のラベルは属性に検出可能な違いがないことを示すこともありますが、我々はまた、これが細粒度の違いを示す、少し考える必要がある状況に適した簡単な回避応答であると疑っています。そのため、我々はこれらの「同等」のペアを新しい作業者のグループに渡しましたが、今回は「同等」のオプションを設けませんでした。我々は作業者に慎重に選択し、1文の理由を述べるように要求しました。トリミング後、4334個の細粒度ペアが残りました。これはUT - Zap50K - 2と呼ばれます。
2つのサンプルラベルは以下の通りです。Zap50K - 1の66%とZap50K - 2の63%の作業者は、少なくとも5人のうち4人が同じラベルに高い信頼度を持っており、一致性と信頼性が確保されています。
†UT - Zap50Kは、これまでに最大のインスタンスレベル(単一画像)の比較ラベルを含んでいます。既存のデータセットに含まれる比較ラベルは、カテゴリレベル(画像グループ)で収集されています。
開放的 | 尖った | スポーティー | 快適 | |
順序付き ペア | ![]() | ![]() | ![]() | ![]() |
細粒度 ペア | ![]() | ![]() | ![]() | ![]() |
ベンチマーク
我々は、本文でベンチマークテストに使用したトレインテスト分割を提供します。また、相対属性予測の実験設定を支援するデモスクリプトも提供します。UT - Zap50K - 1の現在のベンチマークのROC曲線は以下の通りです。凡例の数字は平均ランキング精度を示しています。
![]() | ![]() | ![]() | ![]() |
細粒度語彙
さらに、我々は細粒度比較タスクに合わせてカスタマイズされた別のデータセットを収集しました。このような学習タスクでは、画像ペア間の微妙な違いを強調するトレーニングデータが必要です。そのため、我々は(1)クラウドソーシングを使用して明確な細粒度属性語彙を掘り起こし、(2)語彙内の各属性についてより多くのインスタンスレベルの比較ラベルを収集しました。
画像のペアを与えられたとき、我々は作業者に「靴aは靴Bより少し~である」という文章を1つの単語で完成させるように依頼しました。彼らは画像間の微妙な違いを特定し、簡単な理由を述べるように指示されました。目標は、人々が靴の画像間の微妙な違いをどのように区別するかを見つけることです。1000人以上の作業者がこの研究に参加し、見た4000組の画像ペアから、合計350以上の異なる単語提案が生まれました。
上のワードクラウドは元の結果を表しており、その後我々は基本原理と同義語の統合に基づいて後処理を行いました。最後に、最も一般的な10個の単語が我々の新しい細粒度相対属性語彙を構成します:快適、カジュアル、シンプル、スポーティー、カラフル、耐久性がある、サポート性がある、大胆、ファッショナブル、開放的。我々は各属性について4000個の順序付きペアの人間による注釈を収集しました。
このデータセットは学術的、非商業的な用途のみに使用できます。もしあなたがこのデータセットを出版物で使用する場合は、以下の論文を引用してください:
A. YuとK. Grauman。「Fine - Grained Visual Comparisons with Local Learning」。CVPR、2014年。
[論文] [補足資料] [ポスター] [bibtex] [プロジェクトページ]
A. YuとK. Grauman。「Semantic Jitter: Dense Supervision for Visual Comparisons via Synthetic Images」。ICCV、2017年。
[論文] [補足資料] [ポスター] [bibtex
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.