Select Language

Open Dataset

WSJ0ヒップスター都市騒音オーディオデータセット 環境には主にレストラン、カフェ、バー、公園が含まれます

WSJ0ヒップスター都市騒音オーディオデータセット 環境には主にレストラン、カフェ、バー、公園が含まれます

85G
1127 hits
2 likes
3 downloads
0 discuss
Environment,Environment Audio

WSJ0ヒップスター環境混合(WHAM!)データセットは、WSJ0 - 2mixデータセット内の各2種類の話者混合を独自のノイズ背景シーンとペアにします。私たちはまたWHAMR!を作成しました。......

Data Structure ? 85G

    README.md

    WSJ0ヒップスター環境混合(WHAM!)データセットは、WSJ0 - 2mixデータセット内の各2人の話者の混合音声を、独特なノイズ背景シーンとペアにします。また、WHAMR!も作成しました。これは、背景ノイズに加えて、音声信号に人工残響を追加した拡張版です。
    2018年末に、サンフランシスコ湾岸地域の様々な都市の場所でノイズオーディオを収集しました。環境は主にレストラン、カフェ、バー、公園です。オーディオは、地面から1.0~1.5メートルの高さの三脚に取り付けたApogee Sennheiser両耳マイクで録音されました。
    ここでは、「WHAM!ノイズデータセット」と呼ばれる一連のノイズサンプルと、WHAM!およびWHAMR!データセットをノイズデータとWSJ0データセットから構築する方法を提供しています。また、「WHAM!48kHzノイズデータセット」も提供しており、これは元のサンプリングレートのノイズ録音で構成され、クリップをWSJ0クリップの長さに分割していません。2つのWHAM!ノイズデータセットとWHAM!48kHzノイズデータセットは、理解可能な音声を含むすべての部分を削除するように処理されています。WHAM!48kHzノイズデータセットは、WSJ0クリップの長さにさらに分割されていないため、クリップの長さの分布が広いです。

    データセット構造

    WHAM!ノイズデータセットは、wsj0 - 2mixデータセットに従って、トレーニングセット、検証セット、テストセットに分割されています。

    分割ディレクトリ長さ (時間)ファイル数
    トレーニングtr58.0320,000
    検証cv14.655000
    テストtt9.003000

    クリップは、2チャンネルでサンプリングレート16kHzの32ビット浮動小数点WAV形式です。平均クリップ長は10秒で、最短のクリップは3.5秒、最長のクリップは47.7秒です。

    引用

    WHAM!は、三菱電機研究室(MERL)とWhisperの共同プロジェクトです。WHAM!またはWHAM!48kHzを使用する場合は、このデータセットについて説明した論文を引用してください:

    @inproceedings{Wichern2019WHAM,
        title     = {WHAM!: Extending Speech Separation to Noisy Environments},
        author    = {Wichern, Gordon and Antognini, Joe and Flynn, Michael and Zhu,
                     Licheng Richard and McQuinn, Emmett and Crow,
                     Dwight and Manilow, Ethan and Le Roux, Jonathan},
        booktitle = {Proc. Interspeech},
        year      = {2019},
        month     = sep
    }

    WHAMR!を使用する場合は、このデータセットについて説明した論文を引用してください:

    @inproceedings{Maciejewski2020WHAMR,
        title     = {WHAMR!: Noisy and Reverberant Single-Channel Speech Separation},
        author    = {Maciejewski, Matthew and Wichern, Gordon and Le Roux, Jonathan},
        booktitle = {Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
        year      = {2020},
        month     = may
    }


    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:55 Go earn points?
    • 1127
    • 3
    • 2
    • collect
    • Share