Open Dataset
Data Structure ?
2.5G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
背景
私たちは優れたオープンソースの音声認識システムを開発したいと考えています。
商用企業は難しい問題を解こうとしています。つまり、任意の無制限の音声をテキストに変換し、その意味を特定することです。
より簡単な問題は、事前に定義された音のシーケンスを検出し、それを事前に定義されたアクションにマッピングすることです。
まずは最も簡単な問題に取り組みましょう。単語(コマンド)を分類することです。
音声の学習データを取得するのは難しいです。
アプローチ
親プロジェクト(音声動詞)では、テキスト音声合成プログラムを使用して合成音声データセットを作成しました。そこでの焦点は、単音節の動詞(コマンド)にあります。
音声コマンドデータセット(Pete Wardenによるもので、TensorFlow音声認識チャレンジを参照)では、ボランティアに少数の単語(yes、no、up、down、left、right、on、off、stop、go、および0 - 9)を発音してもらいました。
このデータセットは、この現実世界のデータセットに対応する合成データセットを提供します。
未解決の問題
これらの2つのデータセットは様々な方法で使用することができます。ここでは、私が答えを見たいいくつかのことを挙げます。
音声サンプルの中で、「似た音」に感じさせる要素は何でしょうか?私たちの耳は合成音声と実際の音声の両方を簡単に分類できますが、アルゴリズムにとってはまだ難しいです。実際のデータセットに合成データを追加すると、学習サンプルが増え、多様性も高まります。
一方のデータセットで学習したアルゴリズムが、もう一方のデータセットでどれだけうまく機能するでしょうか?(転移学習)うまくいかない場合、アルゴリズムはおそらく音声の類似性の鍵を見つけていないと考えられます。
合成データは実際のデータセットを分類するのに十分でしょうか?もしそうであれば、その意味は大きいです。何千ものボランティアに何時間もの時間を割いてもらう必要はなくなります。代わりに、目的の単語に対して任意の合成データセットを簡単に作成することができます。
興味深いチャレンジ(コンペティションのアイデア)は、このデータセットで学習し、実際のデータセットで評価することです。
合成データの作成
ここでは、合成音声サンプルがどのように作成されたかを説明します。
コードはhttps://github.com/JohannesBuchner/spoken-command-recognitionの「tensorflow - speech - words」フォルダにあります。
単語のリストは「inputwords」にあります。「marvin」はまだ発音コードがないため、「marvel」に変更されました。
発音は、英国英語の例発音辞書(BEEP、http://svr-www.eng.cam.ac.uk/comp.speech/Section1/Lexical/beep.html)から取得されました。音素は、次のステップのために変換テーブルを使用して変換されました(詳細はcompile.pyを参照)。これにより、「words」ファイルが作成されます。各単語には複数の発音とアクセントがあります。
テキスト音声合成プログラム(espeak)を使用して、これらの単語を発音させました(詳細はgeneratetfspeech.shを参照)。発音、アクセント、ピッチ、速度、話者を変化させました。これにより、各単語について1000以上のクリーンなサンプルが得られます。
ノイズサンプルを取得しました。ノイズサンプル(空港の雑音、車の音、展示会の音、レストランの音、通りの音、地下鉄の音、電車の音)はAURORA(https://www.ee.columbia.edu/~dpwe/sounds/noise/))から取得され、追加のノイズサンプルは合成的に作成されました(海の音、ホワイトノイズ、ブラウンノイズ、ピンクノイズ)。(詳細は../generatenoise.shを参照)
ノイズと音声を混合しました。音声の音量とオフセットを変化させました。ノイズのソースと音量も変化させました。詳細はaddnoise.pyを参照。addnoise2.pyも同じですが、音声の音量が低く、ノイズの音量が高くなっています。すべての音声ファイルは1秒(1s)の長さで、wav形式(16ビット、モノラル、16000Hz)です。
最後に、データをアーカイブに圧縮し、kaggleにアップロードしました。
謝辞
この研究は以下のものに基づいています。
発音辞書:BEEP:http://svr-www.eng.cam.ac.uk/comp.speech/Section1/Lexical/beep.html
ノイズサンプル:AURORA:https://www.ee.columbia.edu/~dpwe/sounds/noise/
eSPEAK:http://espeak.sourceforge.net/ およびmbrola音声 http://www.tcts.fpms.ac.be/synthesis/mbrola/mbrcopybin.html
この研究を使用する際には、上記のものに適切な引用を行ってください。
得られたデータセットを引用するには、以下のようにできます。
APA形式の引用:「Buchner J. Synthetic Speech Commands: A public dataset for single - word speech recognition, 2017. Available from https://www.kaggle.com/jbuchner/synthetic - speech - commands - dataset/」。
BibTeX @article{speechcommands, title={Synthetic Speech Commands: A public dataset for single - word speech recognition.}, author={Buchner, Johannes}, journal={Dataset available from https://www.kaggle.com/jbuchner/synthetic - speech - commands - dataset/}, year={2017} }
オープンソースの音声検出と音声認識を改善しようと努力している皆さんに感謝します。
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.