Open Dataset
Data Structure ?
14.94G
README.md
Visual Genomeはデータセットであり、知識ベースであり、構造化された画像概念を言語に結びつける継続的な取り組みです。 Visual Genome データセットはStanford 大学が管理する画像と画像内容の意味情報のデータセットです。著名な ImageNet画像注釈データセット(これもStanford大学が管理)と比較すると、Visual Genome にはより豊富な意味情報が追加されており、画像と意味情報に基づくより豊富な人工知能アプリケーションを拡張するために使用されます。現在、108249 枚の画像、420 万の領域内容記述(Region Descriptions)、170 万の画像内容質問応答(Visual Question Answers)、210 万のオブジェクト事例(Object Instances)、180 万の属性(Attributes)、180 万の関係(Relationships)が含まれています。
Visual Genome データセットの概要:
108077 枚の画像
540万の領域内容記述(Region Descriptions)
170万の画像内容質問応答(Visual Question Answers)
380万のオブジェクト事例(Object Instances)
280万の属性(Attributes)
230万の関係(Relationships)
すべてがWordnetの同義語セットにマッピングされています
注釈データ:
オブジェクト、属性、画像内の関係
合計108K枚の画像で、各画像には平均で35個のオブジェクト、26個の属性、21対のオブジェクト間の関係があります。
1. Visual Genome のデータ注釈
データセットは主に7つの主要部分で構成されています:
領域内容記述(region descriptions)
オブジェクト(objects)
属性(attributes)
関係(relationships)
領域グラフ(region graphs)
シーングラフ(scene graphs)
質問応答ペア(question answer pairs)
1.1. 領域内容記述(Region Descriptions)
データセットには画像の領域内容記述(regions descriptions)が注釈付けされており、各領域にはバウンディングボックスがあります。
上の画像のように、画像には3つの領域内容記述があります: “男が消火栓を飛び越えている”、“黄色い消火栓”、および
“ショートパンツを着た女性が男の後ろに立っている”。
1.2. オブジェクト(Objects)
データセットの各画像には平均で35個のオブジェクトがあり、各オブジェクトはバウンディングボックスで注釈付けされています。
図のように:
MS-COCO データセット では、80個のオブジェクトカテゴリのみが注釈付けされており、画像内のすべてのオブジェクトを記述していません。実際のシーンでは、より多くのオブジェクトカテゴリが存在する可能性があります。
Visual Genome データセットは、画像に登場するすべての視覚的なオブジェクトを注釈付けすることを目的としており、オブジェクトカテゴリは33877種類に達しています。
1.3. 属性(Attributes)
データセットの各画像には平均で26個の属性があります。オブジェクトには属性がない場合もあれば、より多くの属性が関連付けられている場合もあります。
属性は、色(例:黄色)、状態(例:立っている)などである可能性があります。図のように:
属性を使用すると、オブジェクトをより簡単に記述、比較、分類することができます。以前に見たことのないオブジェクトであっても、属性に基づいてオブジェクトに関連することを推測することができます。例えば、“長い首に黄色と茶色の斑点がある” という属性から、オブジェクトがキリンであると推測する可能性が高いです。
属性に関する研究:
サンプルSVMを使用して、類似する特徴を利用してオブジェクトを探す;
テクスチャ(textures)を使用してオブジェクトを研究したり、色を予測したりする。
属性を使用して目標分類結果を向上させる。例えば、細粒度の識別。
属性は一般に、部分(例:足を持つ)、形状(例:球形)、素材(例:毛皮質)として定義され、新しいオブジェクトカテゴリを分類するために使用されます。
Visual Genome データセットでは属性を拡張しており、その属性は画像固有ではなく、実際のシーンにおけるオブジェクト固有のものです。属性のタイプには、サイズ(例:小さい)、姿勢(例:曲がった)、状態(例:透明)、感情(例:幸せ)などが含まれます。
VGG16に基づく属性予測結果:
1.4. 関係(Relationships)
関係(Relationships)は2つのオブジェクト間の接続関係です。
関係は、行動(例:飛び越える)、空間的関係(例:建造されている)、比較関係(例:より高い)、前置詞句(例:の上を走る)などである可能性があります。図のように:
関係予測結果:
1.5. 領域グラフ(Region Graphs)
オブジェクト、属性、および領域内容記述から抽出された関係を組み合わせて、各領域のグラフ表現を作成します。
1.6. シーングラフ(Scene Graphs)
領域グラフは画像の局所領域を表すもので、領域グラフを組み合わせて、1つのシーングラフを生成して画像全体を表します。
シーングラフはすべての領域グラフの統合であり、すべてのオブジェクト、属性、および各領域内容記述の関係を含んでいます。
シーングラフは、さまざまなレベルのシーン情報をより一貫した方法で組み合わせます。
1.7. 質問応答(QA)ペア(Question Answer(QA) Pairs)
データセットの各画像には2種類のQAペアがあります:
自由形式のQA - 画像全体に基づく;
領域ベースのQA - 画像の選択された領域に基づく。
各画像には6種類の異なるタイプの質問が注釈付けされています:何、どこ、どのように、いつ、誰、なぜ。
図のように:
図. Visual Genome データセット。各画像には、領域内容記述 - 画像の局所情報を記述しています;2種類の質問応答ペア(QAs) - 自由形式のQAsと領域ベースのQAsが含まれています。各領域は、オブジェクト、属性、およびペアワイズ関係から構成される領域グラフ表現に変換されます。最終的に、領域グラフを組み合わせて画像内のすべてのオブジェクトのシーングラフを形成します。
2. Visual Genome データセットの応用
基本的な応用:
属性分類(attribute classification)
関係分類(relationship classification)
記述生成(description generation)
質問応答(question answering QA)
その他の応用:
高密度画像キャプション付け(Dense image captioning)
視覚的質問応答(Visual question answering)
画像理解(Image understanding)
関係抽出(Relationship extraction)
意味的画像検索(Semantic image retrieval)
注釈セットの完成(Completing the Set of Annotations)
注 - 他のデータセットとの比較:
3. 参考文献
[1] - Visual Genome ホームページ
[1] - Visual Genome ドキュメント
[2] - 反復的メッセージパッシングによるシーングラフ生成
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.