Select Language

Open Dataset

合成音声コマンドデータセット、「音声コマンドデータセット v0.01」のテキストと音声の対応項目

合成音声コマンドデータセット、「音声コマンドデータセット v0.01」のテキストと音声の対応項目

2.5G
463 hits
0 likes
0 downloads
0 discuss
Earth and Nature,Software,Languages Classification

コンテキスト:私たちは優れたオープンソースの音声認識システムを持ちたいと思っています。商業企業は難しい問題を解決しようとしています:マップar......

Data Structure ? 2.5G

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    背景

    • 私たちは優れたオープンソースの音声認識システムを開発したいと考えています。

    • 商用企業は難しい問題を解こうとしています。つまり、任意の無制限の音声をテキストに変換し、その意味を特定することです。

    • より簡単な問題は、事前に定義された音のシーケンスを検出し、それを事前に定義されたアクションにマッピングすることです。

    • まずは最も簡単な問題に取り組みましょう。単語(コマンド)を分類することです。

    • 音声の学習データを取得するのは難しいです。

    アプローチ

    • 親プロジェクト(音声動詞)では、テキスト音声合成プログラムを使用して合成音声データセットを作成しました。そこでの焦点は、単音節の動詞(コマンド)にあります。

    • 音声コマンドデータセット(Pete Wardenによるもので、TensorFlow音声認識チャレンジを参照)では、ボランティアに少数の単語(yes、no、up、down、left、right、on、off、stop、go、および0 - 9)を発音してもらいました。

    • このデータセットは、この現実世界のデータセットに対応する合成データセットを提供します。

    未解決の問題

    これらの2つのデータセットは様々な方法で使用することができます。ここでは、私が答えを見たいいくつかのことを挙げます。

    1. 音声サンプルの中で、「似た音」に感じさせる要素は何でしょうか?私たちの耳は合成音声と実際の音声の両方を簡単に分類できますが、アルゴリズムにとってはまだ難しいです。実際のデータセットに合成データを追加すると、学習サンプルが増え、多様性も高まります。

    2. 一方のデータセットで学習したアルゴリズムが、もう一方のデータセットでどれだけうまく機能するでしょうか?(転移学習)うまくいかない場合、アルゴリズムはおそらく音声の類似性の鍵を見つけていないと考えられます。

    3. 合成データは実際のデータセットを分類するのに十分でしょうか?もしそうであれば、その意味は大きいです。何千ものボランティアに何時間もの時間を割いてもらう必要はなくなります。代わりに、目的の単語に対して任意の合成データセットを簡単に作成することができます。

    興味深いチャレンジ(コンペティションのアイデア)は、このデータセットで学習し、実際のデータセットで評価することです。

    合成データの作成

    ここでは、合成音声サンプルがどのように作成されたかを説明します。
    コードはhttps://github.com/JohannesBuchner/spoken-command-recognitionの「tensorflow - speech - words」フォルダにあります。

    1. 単語のリストは「inputwords」にあります。「marvin」はまだ発音コードがないため、「marvel」に変更されました。

    2. 発音は、英国英語の例発音辞書(BEEP、http://svr-www.eng.cam.ac.uk/comp.speech/Section1/Lexical/beep.html)から取得されました。音素は、次のステップのために変換テーブルを使用して変換されました(詳細はcompile.pyを参照)。これにより、「words」ファイルが作成されます。各単語には複数の発音とアクセントがあります。

    3. テキスト音声合成プログラム(espeak)を使用して、これらの単語を発音させました(詳細はgeneratetfspeech.shを参照)。発音、アクセント、ピッチ、速度、話者を変化させました。これにより、各単語について1000以上のクリーンなサンプルが得られます。

    4. ノイズサンプルを取得しました。ノイズサンプル(空港の雑音、車の音、展示会の音、レストランの音、通りの音、地下鉄の音、電車の音)はAURORA(https://www.ee.columbia.edu/~dpwe/sounds/noise/))から取得され、追加のノイズサンプルは合成的に作成されました(海の音、ホワイトノイズ、ブラウンノイズ、ピンクノイズ)。(詳細は../generatenoise.shを参照)

    5. ノイズと音声を混合しました。音声の音量とオフセットを変化させました。ノイズのソースと音量も変化させました。詳細はaddnoise.pyを参照。addnoise2.pyも同じですが、音声の音量が低く、ノイズの音量が高くなっています。すべての音声ファイルは1秒(1s)の長さで、wav形式(16ビット、モノラル、16000Hz)です。

    6. 最後に、データをアーカイブに圧縮し、kaggleにアップロードしました。

    謝辞

    この研究は以下のものに基づいています。

    この研究を使用する際には、上記のものに適切な引用を行ってください。

    得られたデータセットを引用するには、以下のようにできます。

    APA形式の引用:「Buchner J. Synthetic Speech Commands: A public dataset for single - word speech recognition, 2017. Available from https://www.kaggle.com/jbuchner/synthetic - speech - commands - dataset/」。

    BibTeX @article{speechcommands, title={Synthetic Speech Commands: A public dataset for single - word speech recognition.}, author={Buchner, Johannes}, journal={Dataset available from https://www.kaggle.com/jbuchner/synthetic - speech - commands - dataset/}, year={2017} }

    オープンソースの音声検出と音声認識を改善しようと努力している皆さんに感謝します。


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:20 Go earn points?
    • 463
    • 0
    • 0
    • collect
    • Share