Select Language

Open Dataset

Visual Genome画像及び画像内容の意味情報のデータセット

Visual Genome画像及び画像内容の意味情報のデータセット

14.94G
957 hits
0 likes
0 downloads
0 discuss
CNN 2D Box

Visual Genomeはデータセットであり、知識ベースであり、構造化された画像概念を言語に結びつける継続的な取り組みです。VisualGenomeデータセットはスタンフォード大学によって管理されています。......

Data Structure ? 14.94G

    README.md

    Visual Genomeはデータセットであり、知識ベースであり、構造化された画像概念を言語に結びつける継続的な取り組みです。 Visual Genome データセットはStanford 大学が管理する画像と画像内容の意味情報のデータセットです。著名な ImageNet画像注釈データセット(これもStanford大学が管理)と比較すると、Visual Genome にはより豊富な意味情報が追加されており、画像と意味情報に基づくより豊富な人工知能アプリケーションを拡張するために使用されます。現在、108249 枚の画像、420 万の領域内容記述(Region Descriptions)、170 万の画像内容質問応答(Visual Question Answers)、210 万のオブジェクト事例(Object Instances)、180 万の属性(Attributes)、180 万の関係(Relationships)が含まれています。


    Visual Genome データセットの概要:

    • 108077 枚の画像

    • 540万の領域内容記述(Region Descriptions)

    • 170万の画像内容質問応答(Visual Question Answers)

    • 380万のオブジェクト事例(Object Instances)

    • 280万の属性(Attributes)

    • 230万の関係(Relationships)

    • すべてがWordnetの同義語セットにマッピングされています


    • 注釈データ:

      オブジェクト、属性、画像内の関係

    • 合計108K枚の画像で、各画像には平均で35個のオブジェクト、26個の属性、21対のオブジェクト間の関係があります。

    ここに画像の説明を記入
    ここに画像の説明を記入

    1. Visual Genome のデータ注釈

    データセットは主に7つの主要部分で構成されています:

    • 領域内容記述(region descriptions)

    • オブジェクト(objects)

    • 属性(attributes)

    • 関係(relationships)

    • 領域グラフ(region graphs)

    • シーングラフ(scene graphs)

    • 質問応答ペア(question answer pairs)

    1.1. 領域内容記述(Region Descriptions)

    ここに画像の説明を記入

    データセットには画像の領域内容記述(regions descriptions)が注釈付けされており、各領域にはバウンディングボックスがあります。

    上の画像のように、画像には3つの領域内容記述があります: “男が消火栓を飛び越えている”、“黄色い消火栓”、および
    “ショートパンツを着た女性が男の後ろに立っている”。

    1.2. オブジェクト(Objects)

    データセットの各画像には平均で35個のオブジェクトがあり、各オブジェクトはバウンディングボックスで注釈付けされています。

    図のように:
    ここに画像の説明を記入

    MS-COCO データセット では、80個のオブジェクトカテゴリのみが注釈付けされており、画像内のすべてのオブジェクトを記述していません。実際のシーンでは、より多くのオブジェクトカテゴリが存在する可能性があります。

    Visual Genome データセットは、画像に登場するすべての視覚的なオブジェクトを注釈付けすることを目的としており、オブジェクトカテゴリは33877種類に達しています。

    1.3. 属性(Attributes)

    データセットの各画像には平均で26個の属性があります。オブジェクトには属性がない場合もあれば、より多くの属性が関連付けられている場合もあります。

    属性は、色(例:黄色)、状態(例:立っている)などである可能性があります。図のように:
    ここに画像の説明を記入

    属性を使用すると、オブジェクトをより簡単に記述、比較、分類することができます。以前に見たことのないオブジェクトであっても、属性に基づいてオブジェクトに関連することを推測することができます。例えば、“長い首に黄色と茶色の斑点がある” という属性から、オブジェクトがキリンであると推測する可能性が高いです。

    属性に関する研究:

    • サンプルSVMを使用して、類似する特徴を利用してオブジェクトを探す;

    • テクスチャ(textures)を使用してオブジェクトを研究したり、色を予測したりする。

    • 属性を使用して目標分類結果を向上させる。例えば、細粒度の識別。

    属性は一般に、部分(例:足を持つ)、形状(例:球形)、素材(例:毛皮質)として定義され、新しいオブジェクトカテゴリを分類するために使用されます。

    Visual Genome データセットでは属性を拡張しており、その属性は画像固有ではなく、実際のシーンにおけるオブジェクト固有のものです。属性のタイプには、サイズ(例:小さい)、姿勢(例:曲がった)、状態(例:透明)、感情(例:幸せ)などが含まれます。

    • VGG16に基づく属性予測結果:
      ここに画像の説明を記入

    1.4. 関係(Relationships)

    関係(Relationships)は2つのオブジェクト間の接続関係です。

    関係は、行動(例:飛び越える)、空間的関係(例:建造されている)、比較関係(例:より高い)、前置詞句(例:の上を走る)などである可能性があります。図のように:
    ここに画像の説明を記入

    • 関係予測結果:
      ここに画像の説明を記入

    1.5. 領域グラフ(Region Graphs)

    オブジェクト、属性、および領域内容記述から抽出された関係を組み合わせて、各領域のグラフ表現を作成します。

    1.6. シーングラフ(Scene Graphs)

    領域グラフは画像の局所領域を表すもので、領域グラフを組み合わせて、1つのシーングラフを生成して画像全体を表します。

    シーングラフはすべての領域グラフの統合であり、すべてのオブジェクト、属性、および各領域内容記述の関係を含んでいます。

    シーングラフは、さまざまなレベルのシーン情報をより一貫した方法で組み合わせます。

    1.7. 質問応答(QA)ペア(Question Answer(QA) Pairs)

    データセットの各画像には2種類のQAペアがあります:

    • 自由形式のQA - 画像全体に基づく;

    • 領域ベースのQA - 画像の選択された領域に基づく。

    各画像には6種類の異なるタイプの質問が注釈付けされています:何、どこ、どのように、いつ、誰、なぜ。

    図のように:
    ここに画像の説明を記入

    図. Visual Genome データセット。各画像には、領域内容記述 - 画像の局所情報を記述しています;2種類の質問応答ペア(QAs) - 自由形式のQAsと領域ベースのQAsが含まれています。各領域は、オブジェクト、属性、およびペアワイズ関係から構成される領域グラフ表現に変換されます。最終的に、領域グラフを組み合わせて画像内のすべてのオブジェクトのシーングラフを形成します。

    2. Visual Genome データセットの応用

    基本的な応用:

    • 属性分類(attribute classification)

    • 関係分類(relationship classification)

    • 記述生成(description generation)

    • 質問応答(question answering QA)

    その他の応用:

    • 高密度画像キャプション付け(Dense image captioning)

    • 視覚的質問応答(Visual question answering)

    • 画像理解(Image understanding)

    • 関係抽出(Relationship extraction)

    • 意味的画像検索(Semantic image retrieval)

    • 注釈セットの完成(Completing the Set of Annotations)

    注 - 他のデータセットとの比較:
    ここに画像の説明を記入

    3. 参考文献

    [1] - Visual Genome ホームページ

    [1] - Visual Genome ドキュメント

    [2] - 反復的メッセージパッシングによるシーングラフ生成


    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:10 Go earn points?
    • 957
    • 0
    • 0
    • collect
    • Share