Select Language

Open Dataset

FineGym:細粒度な動作理解に用いる階層的な動画データセット

FineGym:細粒度な動作理解に用いる階層的な動画データセット

30.5M
1292 hits
1 likes
7 downloads
0 discuss
Music Analysis,Movies and TV Shows Classification

FineGymデータセットの概要。我々は時間的および意味的に粗から細かい注釈を提供します。3つのレベルの分類ラベルがあります。時間次元(2本の柱で表される)も分割されます。......

Data Structure ? 30.5M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    FineGymデータセットの概要。我々は時間的および意味的に粗から細かい注釈を提供しています。3つのレベルの分類ラベルがあります。時間次元(2本の柱で表される)も行動とサブ行動の2つのレベルに分けられます。サブ行動は集合カテゴリで一般的に記述することも、要素カテゴリで正確に記述することもできます。サブ行動インスタンスの真の要素カテゴリは、人工的に構築された決定木によって取得されます。

    概要

    公開されているベンチマークでは、現在の行動認識技術は大きな成功を収めています。しかし、スポーツ分析などの現実世界のアプリケーションに使用する場合、活動を異なる段階に分解し、微妙な異なる行動を区別する必要があり、その性能は依然として十分とは言えません。行動認識を新しいレベルに引き上げるために、我々は体育館のビデオに基づく新しいデータセットであるFineGymを開発しました。既存の行動認識データセットと比較して、FineGymは豊富さ、品質、多様性のすべてにおいて際立っています。特に、行動とサブ行動の2つのレベルで、3段階の意味階層を持つ時間注釈を提供します。例えば、「平衡木」イベントは、「ジャンプ - ジャンプ」、「平衡木 - 回転」、「飛行 - サルト」、「飛行 - 手跳ね」、「降りる」の5組の基本的なサブ行動からなるシーケンスとして注釈付けされます。各組のサブ行動は、さらに細かく定義されたクラスラベルで注釈付けされます。この新しい粒度レベルは、行動認識に大きな挑戦をもたらします。例えば、一貫した行動から時間構造を解析する方法や、微妙に異なる行動カテゴリを区別する方法などです。我々はこのデータセットを用いて代表的な方法を体系的に研究し、いくつかの興味深い発見を得ました。我々はこのデータセットが行動理解の研究を推進することを期待しています。

    データセットの階層構造

    FineGymは意味的および時間的注釈を階層的に組織しています。上部には3つのレベルの分類ラベル、つまりイベント(例:平衡木)、集合(例:降りる)、要素(例:前屈体サルト)が表示されています。下部には2段階の時間注釈、つまり行動の時間境界(上部のバー)とサブ行動インスタンス(下部のバー)が記述されています。

    サブ行動の例

    我々はサブ行動インスタンスを細分化したいくつかの例を提示します。各グループは同一イベント内の3つの要素カテゴリ(BB、FX、UB、VT)に属しています。この細粒度のインスタンスには微妙で挑戦的な違いが含まれていることがわかります。(GIF上にマウスを重ねると0.25倍の減速表示になります)

       

    平衡木 (BB)
    床運動 (FX)
    高低棒 (UB)
    跳馬 (VT)

    実証研究と分析

    (1) 要素レベルの行動認識は既存の方法に大きな挑戦をもたらします。

    代表的な方法の要素レベルの行動認識結果

    (2) 疎なサンプリングは細粒度の行動認識には不十分です。

    訓練中にサンプリングフレーム数を変更した場合のTSNの性能。

    (3) 時間情報の重要性はどの程度ですか?

    (a) 動き特徴(例:オプティカルフロー)はフレームの時間的動態を捉えることができ、TSNの性能を向上させます。

    (b) 時間的動態はFineGymで重要な役割を果たし、TRNはそれを捉えることができます。

    (c) テストフレーム数が訓練フレーム数と大きく異なる場合、TSMの性能は急激に低下しますが、TSNは時間平均プーリングのみを適用しているため性能を維持します。

    (a) 6つの要素カテゴリにおける、動きと外観の特徴を持つTSNのクラスごとの性能。

    (b) TRNの、順序付けられたまたはシャッフルされたテストフレームを使用したUB - サークル集合での性能。

    (c) 3つのフレームで訓練し、より多くのフレームでテストした場合の、TSMとTSNのGym99での平均クラス精度。

    (4) 大規模ビデオデータセットでの事前学習は役に立ちますか?

    FineGymでは、Kineticsでの事前学習が必ずしも役に立つとは限りません。潜在的な理由は、粗粒度と細粒度の行動の時間パターンに大きなギャップがあることです。

    KineticsとImageNetで事前学習したI3Dの、異なる要素カテゴリにおけるクラスごとの性能。

    (5) 姿勢情報が役に立たないのはなぜですか?

    骨格ベースのST - GCNは、体操のインスタンスにおける骨格推定の難しさのために苦戦しています。


    AlphaPoseを使用した跳馬動作の人物検出と姿勢推定の結果。体操選手の検出と姿勢推定が複数のフレームで見逃されていることがわかります。特に激しい動きのあるフレームです。これらのフレームは細粒度の認識に非常に重要です。(GIF上にマウスを重ねると0.25倍の減速表示になります)

    更新情報

    [2020年7月23日] 事前抽出された特徴をGitHubで公開しました。こちらをチェックしてください。
    [2020年4月16日] サブ行動識別子「A_{ZZZZ}_{WWWW}」の命名に関する小さな問題を修正し、曖昧さを回避しました。 (指摘してくれた Haodong Duan に感謝します。)
    [2020年4月16日] 更新情報を追跡し、よくある質問に対応するための新しいサブセクションを追加しました。

    よくある質問

    Q0: ライセンスの問題:
    A0: FineGymの注釈は我々が著作権を持ち、クリエイティブ・コモンズ 表示 - 非営利 4.0 国際ライセンスの下で公開されています。
    Q1: YouTube上の一部のリンクが無効です。欠落しているビデオをどのように取得できますか?
    Q1': 私は中国本土にいて、YouTubeにアクセスできません。データセットをどのように入手できますか?
    A1: このリンク のGoogleフォームを提出してください。 すぐにご連絡する場合があります。
    Q2: データセット内のイベント/要素レベルのインスタンスは整数秒で切り取られていますか?
    A2: いいえ。すべてのレベルのインスタンス(行動とサブ行動)は、フレームレベルの精度を追求して、正確なタイムスタンプ(ミリ秒)で注釈付けされています。 識別子内の数字は、簡潔さのために整数秒から導出されています。 詳細については、以下の説明を参照してください。
    Q3: 表2と表3の平均精度とトップ1精度の違いは何ですか?
    A3: トップK精度は、正しいラベルが最も確信度の高い上位K個の予測に含まれるインスタン

    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:10 Go earn points?
    • 1292
    • 7
    • 1
    • collect
    • Share