Select Language

Open Dataset

Google Audiosetオーディオデータセット

Google Audiosetオーディオデータセット

2.41G
1747 hits
0 likes
6 downloads
0 discuss
NLP Audio

AudioSetには632種類のオーディオカテゴリと、2084320本の10秒間の長さの人工的にラベル付けされた音声クリップ(クリップはYouTube動画から取得)が含まれています。オーディオ本体......

Data Structure ? 2.41G

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    AudioSetには632種類のオーディオカテゴリと、YouTube動画から取得した、人為的にラベル付けされた10秒間の音声クリップ2084320本が含まれています。オーディオオントロジーは、広範囲の人間や動物の声、楽器や音楽ジャンルの音、日常の環境音をカバーするイベントカテゴリの階層図として定義されています。

    AudioSetを公開することで、我々はオーディオイベント検出に共通で実用的な評価タスクを提供し、音声イベントの包括的な語彙理解の第一歩となることを期待しています。

    大型データ収集

    このデータセットは、我々と協力したすべての人間のアノテーターがYouTube動画から識別した音声を収集したものです。我々はYouTubeのメタデータとコンテンツベースの検索に基づいて、ラベル付けが必要なクリップを選択します。

    我々のオーディオオントロジーにおいて、得られたデータセットはオーディオイベントクラスを非常によくカバーしています。

    図:各カテゴリのサンプル数


    我々のICASSP 2017の論文では、オーディオオントロジーとデータセットの構築についてより具体的な説明があります。あなたは我々のGitHubリポジトリでオーディオオントロジーにさらに追加することができます。データセットと機械抽出特徴(machine-extracted features)は、https://github.com/audioset/ontology からダウンロードできます。

    この研究成果は、IEEE ICASSP 2017大会で論文として発表されています:

    論文:Audio Set: An ontology and human-labeled dataset for audio events

    概要

    オーディオイベント認識は、人間がオーディオイベントを認識して関連付ける能力に似た、機械知覚研究における新しい問題です。画像内の物体を認識するなどの同様の問題は、主にImageNetという広範なデータセットから大きな恩恵を受けています。この論文では、大規模な人為的にラベル付けされたオーディオイベントデータセットであるAudio Setの構築プロセスについて説明します。このデータセットは、画像とオーディオの研究間に存在するギャップを埋めることを目的としています。文献と人間の管理に基づいて細かく構築された635種類のオーディオクラスの階層オントロジーを使用して、我々はアノテーターから大量のデータを収集し、特定のオーディオクラス(10秒間のYouTubeオーディオクリップ)の現状を調査しました。メタデータ、テキスト(リンクなど)、およびコンテンツ分析に基づく検索を使用して、これらのクリップにラベルを付けることを提案します。結果として、我々は幅と規模が前例のないデータセットを取得し、これが高度なオーディオイベント認識プログラムの開発を実質的に促進することを期待しています。


    AudioSetは2種類の形式で提供されます:

    csvファイルで、オーディオが含まれるYouTube動画のID、開始時間、終了時間、およびラベル(複数のラベルの場合もあります)が含まれます。
    128次元の特徴で、サンプリングレートは1Hzで、つまりオーディオを1秒ごとに128次元の特徴に変換します。特徴はVGGishモデルを使用して抽出され、VGGishのダウンロード先はTensorFlow models GitHub repositoryで、このモデルを使用して独自のデータを抽出することができます。VGGishはYouTube-8Mの抽出にも使用されています。これらのデータは.tfrecord形式で保存されています。
    128次元特徴のダウンロード先(所在地に基づく)

    http://storage.googleapis.com/us_audioset/youtube_corpus/v1/features/features.tar.gz
    http://storage.googleapis.com/eu_audioset/youtube_corpus/v1/features/features.tar.gz
    http://storage.googleapis.com/asia_audioset/youtube_corpus/v1/features/features.tar.gz

    ラベルのタイプマッピングは、class_labels_indices.csvで確認できます。

    AudioSetには、AudioSetでのトレーニング用のStarter Codeも提供されており、ベースラインとして使用できます。このコードはYouTube8Mでのトレーニングにも使用されており、Starter Codeからダウンロードできます。

    詳細は、GoogleのフォーラムAudioSet_Userで確認できます。
     

    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:10 Go earn points?
    • 1747
    • 6
    • 0
    • collect
    • Share