Open Dataset
Data Structure ?
1.54G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
私たちはYouTubeから新しいデータセットを収集しました。このデータセットには3782個の動画が含まれています。
したがって、これらの動画は特定の規則や特徴がない屋外動画です。
図1は動画の単一フレームの例を示しています。私たちは7種類のアクターが8つの異なる動作を行うことを選びました。選んだアクターには、成人、乳児、鳥、猫、犬などの関節付きアクターと、ボールや自動車などの剛体アクターが含まれます。この8つの動作は、登山、匍匐前進、食事、飛行、ジャンプ、転がり、走る、歩くです。単一の動作クラスは異なる参加者によって実行できますが、いずれの参加者も8つの動作をすべて実行することはできません。例えば、私たちはデータセット内で成人の飛行やボールの走りを考慮していません。場合によっては、小さな動作のグループを維持するために、与えられた動作用語の意味を拡張しました。例えば、自動車が動いているということは自動車が移動していることを意味し、跳ねるボールはボールが弾んでいることを意味します。追加の動作ラベル「なし」は、列挙された8つの動作以外の動作や、バックグラウンドで動作を行っていないアクターの動作を説明するために追加されています。したがって、私たちは合計43個の有効なアクター - 動作ペアを持っています。
図1。私たちの新しいアクター動作データセットA2Dにおけるラベル付き動画のモンタージュ。このモンタージュには、単一の実行者の動作インスタンスと、複数の実行者が異なる動作を行う例があります。ラベルの色はHSV色空間から選ばれており、同じオブジェクトは同じ色相を持ちます(色の凡例を図2を参照)。ここで、黒は背景です。
YouTubeデータベースを検索するために、私たちはアクター - 動作ペアから生成された様々なテキスト検索を使用しました。次に、生成された動画を手動で検証して、主な実行コンポーネント - 動作ペアのインスタンスを含むようにし、その後、その実行コンポーネント - 動作インスタンスを含むように時間調整を行いました。トリミングされた動画の平均長は136フレームで、最小フレーム数は24フレーム、最大は332フレームです。私たちはデータセットを3036個の訓練用動画と746個のテスト用動画に分割し、すべてのアクター - 動作ペアに均等に配分しました。図2は、各実行コンポーネント - 動作ペアの統計情報を示しています。A2Dの動画の3分の1は、複数の参加者が異なる動作を行っており、これにより私たちのデータセットはほとんどの動作分類データセットと区別されます。図3は、複数の参加者と動作を持つこれらのケースの正確なカウントを示しています。
図2.新しいA2Dデータセットにおけるラベルカウントの統計情報。私たちは、データセット内で与えられた[参加者、動作]ラベルが出現する動画の数を示しています。空のエントリは、データセット内にない関節付きラベルです。これは、それらが無効である(ボールは食べることができない)か、供給不足であるためです。例えば、犬の登山の場合です。各セルの背景色は、私たちが使用している色を表しています。私たちはアクターに対して色相を変え、動作に対して彩度を変えています。
図3.A2Dにおける各動画の関節付きアクター - 動作、および各動画の単一アクターと動作のカウントのヒストグラム。約3分の1の動画は、1つ以上のアクターおよび/または動作を持っています。
考慮するより広範な動作理解問題セットをサポートするために、私たちはデータセット内の各動画に対して、密集したピクセルレベルの参加者と動作の注釈を使用して3〜5フレームをラベル付けしました(図1にラベル付けの例があります)。選択されたフレームは動画全体に均等に分布しています。まず、LabelMeツールボックスを使用してMTurkから众包注釈を収集し、その後、各動画を手動でフィルタリングして、ラベルの品質とラベルの時間的な一貫性を確保しました。動画レベルのラベルは、これらのピクセルレベルのラベルから直接計算され、識別タスクに使用されます。私たちの知る限り、このデータセットは、実行コンポーネントと動作のピクセルレベルのラベルを同時に含む最初の動画データセットです。
出版物:
[1] | Y. Yan, C. Xu, D. Cai, and J. J. Corso. Weakly supervised actor - action segmentation via robust multi - task ranking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2017. [ bib ] |
---|---|
[2] | C. Xu and J. J. Corso. Actor - action semantic segmentation with grouping - process models. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016. [ bib | data ] |
[3] | C. Xu, S. - H. Hsieh, C. Xiong, and J. J. Corso. Can humans fly? Action understanding with multiple classes of actors. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015. [ bib | poster | data | .pdf ] |
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.