Open Dataset
Data Structure ?
471.84G
README.md
データ量は高達472GBで、119,197個のビデオが含まれています。各ビデオの長さはすべて10秒ですが、フレームレートは15~30fpsまで様々で、解像度も320×240~3840×2160まで様々です。トレーニングビデオのうち、19,197個のビデオは約430人の俳優による実際の撮影クリップで、残りの100,000個のビデオは実際のビデオから生成された偽顔ビデオです。偽顔の生成には、DeepFakes、GANベース、および一部の非学習型の方法が使用され、データセットにできるだけ多くの偽顔ビデオが含まれるようにしています。このデータセットのビデオには音声が含まれており、これは現在のほとんどのデータセットにはない特徴ですが、音声に関するアノテーション情報はありません。公式サイトおよびKaggleコンペのリーダーボードのランキング情報によると、現在のSOTAスコアの損失は0.42程度で、まだ大きな改善の余地がありますが、計算リソースの要求が高く、調査によると一部の人は8枚以上のV100 GPUを使用しているため、このデータセットを使用した論文は少ないです。
このコンペティションは提出受付を締め切りました。参加者が選択したコード提出物は、主催者によって非公開のテストセットで再実行され、プライベートリーダーボードの結果が確定しました。このコンペティションの独自の設計を再現できないため、遅れての提出は受け付けません。
トレーニングセット
このコードコンペティションのトレーニングセットは、Kaggleでは直接利用できません。そのサイズが大きすぎて、Kaggleでトレーニングするには不適切だからです。代わりに、オフラインでトレーニングし、外部でトレーニングしたモデルを外部データセットとしてKaggleノートブックに読み込み、テストセットに対して推論を行うことを強くおすすめします。詳細情報については、「はじめに」を確認してください。
完全なトレーニングセットは470GBを少し超えています。私たちは、それを1つの巨大なファイルとして、およびそれぞれ約10GBのサイズの50個の小さなファイルとして提供しています。以下のリンクのいずれかにアクセスするには、コンペティションのルールに同意する必要があります。
ファイル
train_sample_videos.zip - トレーニングビデオのサンプルセットと、ラベル付きの
metadata.json
を含むZIPファイル。完全なトレーニングビデオセットは、上記のリンクを通じて入手できます。sample_submission.csv - 正しい形式のサンプル提出ファイル。
test_videos.zip - 公開検証セットとして使用される少量のビデオを含むZIPファイル。
このコンペティションで利用可能なデータセットを理解するには、「はじめに」の情報を確認してください。
列
filename
- ビデオのファイル名label
- ビデオがREAL(真)かFAKE(偽)かoriginal
- トレーニングセットのビデオがFAKEの場合、元のビデオがここに記載されますsplit
- これは常に「train」(トレーニング)に等しいです。
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.