Select Language

Open Dataset

AVAデータセット

AVAデータセット

1022 hits
0 likes
0 downloads
0 discuss
Action/Event Detection Classification

Data Structure ? 0M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    機械に動画中の人間の行動を理解させることは、コンピュータビジョンにおける基本的な研究課題です。Googleのブログでは、「動画版」ImageNetに匹敵するデータセット - AVA(A Finely Labeled Video Dataset for Human Action Understanding )が公開されました。このデータセットは、機械に人間の活動を理解させることを目的としています。 このデータセットは人間を中心にしてラベル付けされており、80種類の動作を含む57,600個の動画クリップがあり、人間の行動認識システムの研究に役立ちます。   

    機械に動画中の人間の行動を理解させることは、コンピュータビジョンにおける基本的な研究課題であり、個人の動画検索や発見、運動分析、ジェスチャーインターフェースなどのアプリケーションにとって非常に重要です。過去数年間、画像の分類や画像内の対象物の検出において目覚ましい進歩がありましたが、人間の動作を認識することは依然として大きな課題です。これは、動作の定義が動画内のオブジェクトの定義よりも曖昧であるため、細かくラベル付けされた動作動画データセットを構築することが難しいからです。多くのベンチマークデータセット、例えばUCF101、activitynet、DeepMindのKineticsなどは、画像分類のラベル付け方式を採用しており、データセット内の各動画または動画クリップに1つのラベルを割り当てていますが、複数の異なる動作を行う可能性のある人間が含まれる複雑なシーンに対応したデータセットはありません。

    これらの動画は人間にとって特別なものではありません - YouTube上の人々が水を飲んだり、料理をしたりする3秒間の動画クリップに過ぎません。しかし、各動画はファイルと紐付けられており、このファイルには機械学習アルゴリズムが観察すべき人間を特定し、彼らの姿勢を記述し、彼らが他の人や物とやり取りしているかどうかを示しています。子供に犬を指さして「犬!」と教えるように、このデータセットはそのようなシーンのデジタル版です。

    データセットの特徴

    他の動作データセットと比較して、AVAデータセットには以下のような特徴があります。

    人間を中心にラベル付け:各動作ラベルは人間自体に基づいており、動画やクリップではありません。したがって、異なる動作を行う様々な人に異なるラベルを付けることができ、これは非常に一般的です。

    原子レベルの視覚的動作:ラベル付けする動作には合理的な時間制限(3秒)を設けており、動作が人間の生理機能に合致し、明確な視覚的特徴を持つようにしています。

    実際の動画を視覚材料として使用:様々な題材や国の映画をAVAのラベル付け材料として使用することで、データベースに様々な種類の人間の行動が含まれるようにしています。

    img

    動画ソースの3秒間の視覚クリップのラベル。各動作素材は四角形で囲まれています(明確にするために、各例では1つの枠のみを表示しています。)

    AVAを作成するために、まずYouTubeから大量の多様なデータを収集しました。主に「映画」と「テレビ」のカテゴリに焦点を当て、異なる国のプロの俳優を選択しました。各動画から15分間を抽出して分析し、15分間の動画を300個の重複しない3秒間のクリップに分割しました。サンプリングは動作シーケンスの時間順序を維持する戦略に従って行われました。

    次に、各3秒間のクリップの中央フレームにある人物に手動でバウンディングボックスを付けました。ボックス内の各人物に対して、ラベル付け者は事前に用意された原子動作の語彙表(80種類)から適切な数のラベルを選択して人物の動作を記述します。これらの動作は3つのグループに分けられます:姿勢/移動動作、人 - 物の相互作用、人 - 人の相互作用。動作を行っているすべての人に対してラベル付けを行ったため、AVAのラベル頻度は以下の図に示すようにロングテール分布に従います。

    img

    AVAの原子動作ラベルの分布。x軸に示されているラベルは語彙表の一部に過ぎません。

    AVAの独特な設計により、他の既存のデータセットにはない興味深いデータを取得することができます。例えば、少なくとも2つのラベルが付けられた多数の人物が与えられた場合、動作ラベルの共起パターン(co-occurrence pattern)を判断することができます。以下の図は、AVAにおいて最も高い共起頻度を持つ動作ペアとその共起スコアを示しています。特定された期待パターンには、人々が歌いながら楽器を演奏したり、抱き合ってキスしたりするなどがあります。 img AVAにおいて最も高い共起頻度を持つ動作ペア。

    AVAデータセットに基づく人間の動作認識システムの効率性を評価するために、既存のベースラインのディープラーニングモデルを使用し、少し規模の小さいJHMDBデータセットで高い競争力のある性能を達成しました。可変焦点距離、雑多な背景、撮影方法や外観の違いなどの要因があるため、このモデルのJHMDBデータセットでの性能は、AVAでの動作を正確に認識する性能(18.4% mAP)と比較してやや劣っています。これは、将来的にAVAが新しい動作認識アーキテクチャやアルゴリズムの開発と評価のテストプラットフォームとして利用できることを示しています。

    関連論文

    [1] Chunhui Gu, Chen Sun, David A. Ross, Carl Vondrick, Caroline Pantofaru, Yeqing Li, Sudheendra Vijayanarasimhan, George Toderici, Susanna Ricco, Rahul Sukthankar, Cordelia Schmid, Jitendra Malik, AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions, 2017

    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 1022
    • 0
    • 0
    • collect
    • Share