Select Language

Open Dataset

WHAMノイズデータセット

WHAMノイズデータセット

871 hits
0 likes
8 downloads
0 discuss
Music Analysis Audio

Data Structure ? 0M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    WSJ0ヒップスターアンビエントミックス(WHAM!)データセットは、wsj0-2mixデータセットの各2話者混合音声に、独自のノイズ背景シーンをペアリングしています。また、背景ノイズに加えて音声信号に人工的な残響を追加した拡張版のWHAMR!も作成しました。

    ノイズオーディオは、2018年末にサンフランシスコ湾岸地域の様々な都市部で収集されました。主な環境は、レストラン、カフェ、バー、公園です。オーディオは、三脚に取り付けたApogee Sennheiserバイノーラルマイクを使用して、地面から1.0〜1.5メートルの高さで録音されました。

    「WHAM!ノイズデータセット」と呼ばれるノイズサンプルのセットは、ここで提供されており、ノイズデータとWSJ0データセットからWHAM!およびWHAMR!データセットを構築するためのスクリプトも同梱されています。また、「WHAM!48kHzノイズデータセット」も提供しており、これは元のサンプルレートで録音されたノイズで、WSJ0クリップの長さに分割されていません。WHAM!ノイズデータセットとWHAM!48kHzノイズデータセットは、理解可能な音声が含まれるセグメントを削除するように処理されています。WHAM!48kHzノイズデータセットは、WSJ0クリップの長さにさらに分割されていないため、クリップの長さの分布が広いです。

    この研究については、我々の論文 「WHAM!: Extending Speech Separation to Noisy Environments.」 および 「WHAMR!: Noisy and Reverberant Single-Channel Speech Separation.」 で詳細に説明されています。

    ダウンロード

    WHAM!ノイズデータセットとそのバリエーション、および関連するデータ生成スクリプトは、以下からダウンロードできます。

    データセットの構築

    WHAM!データセットは、wsj0-2mixデータセットの2話者混合音声とWHAM!ノイズデータセットのノイズサンプルを混合することで構築されます。ここで提供されるのはノイズデータのみで、ユーザーはWSJ0データセットへのアクセス(およびライセンス)が必要です。

    WHAM!については、README を参照して、混合スクリプトの使用方法の詳細な手順を確認してください。混合スクリプトは、上記のリンク からダウンロードできます。

    WHAMR!については、README を参照して、混合スクリプトの使用方法の詳細な手順を確認してください。混合スクリプトは、上記のリンク からダウンロードできます。

    データセットの構造

    WHAM!ノイズデータセットは、wsj0-2mixデータセットに従って、トレーニングセット、検証セット、テストセットに分割されています。

    分割 ディレクトリ 時間(時間) ファイル数
    トレーニング tr 58.03 20,000
    検証 cv 14.65 5000
    テスト tt 9.00 3000

    クリップは、2チャンネル、サンプリングレート16kHzの32ビット浮動小数点WAV形式です。クリップの平均長は10秒で、最短のクリップは3.5秒、最長のクリップは47.7秒です。

    引用

    WHAM!は、三菱電機研究室(MERL)Whisper の共同研究成果です。WHAM!またはWHAM!48kHzを使用する場合は、データセットを説明した我々の論文 を引用してください。

    @inproceedings{Wichern2019WHAM,
        title     = {WHAM!: Extending Speech Separation to Noisy Environments},
        author    = {Wichern, Gordon and Antognini, Joe and Flynn, Michael and Zhu,
                     Licheng Richard and McQuinn, Emmett and Crow,
                     Dwight and Manilow, Ethan and Le Roux, Jonathan},
        booktitle = {Proc. Interspeech},
        year      = {2019},
        month     = sep
    }
    

    WHAMR!を使用する場合は、データセットを説明した我々の論文 を引用してください。

    @inproceedings{Maciejewski2020WHAMR,
        title     = {WHAMR!: Noisy and Reverberant Single-Channel Speech Separation},
        author    = {Maciejewski, Matthew and Wichern, Gordon and Le Roux, Jonathan},
        booktitle = {Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
        year      = {2020},
        month     = may
    }
    
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 871
    • 8
    • 0
    • collect
    • Share