Open Dataset

合成音声コマンドデータセット、「音声コマンドデータセット v0.01」のテキストと音声の対応項目

2.5G

481 hits

0 likes

0 downloads

0 discuss

Earth and Nature,Software,Languages Classification

コンテキスト：私たちは優れたオープンソースの音声認識システムを持ちたいと思っています。商業企業は難しい問題を解決しようとしています：マップar......

Introduction
Data file
Related papers
Code
Discuss(0)
Instructions

Data Structure ? 2.5G

*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

README.md

背景

私たちは優れたオープンソースの音声認識システムを開発したいと考えています。
商用企業は難しい問題を解こうとしています。つまり、任意の無制限の音声をテキストに変換し、その意味を特定することです。
より簡単な問題は、事前に定義された音のシーケンスを検出し、それを事前に定義されたアクションにマッピングすることです。
まずは最も簡単な問題に取り組みましょう。単語（コマンド）を分類することです。
音声の学習データを取得するのは難しいです。

アプローチ

親プロジェクト（音声動詞）では、テキスト音声合成プログラムを使用して合成音声データセットを作成しました。そこでの焦点は、単音節の動詞（コマンド）にあります。
音声コマンドデータセット（Pete Wardenによるもので、TensorFlow音声認識チャレンジを参照）では、ボランティアに少数の単語（yes、no、up、down、left、right、on、off、stop、go、および0 - 9）を発音してもらいました。
このデータセットは、この現実世界のデータセットに対応する合成データセットを提供します。

未解決の問題

これらの2つのデータセットは様々な方法で使用することができます。ここでは、私が答えを見たいいくつかのことを挙げます。

音声サンプルの中で、「似た音」に感じさせる要素は何でしょうか？私たちの耳は合成音声と実際の音声の両方を簡単に分類できますが、アルゴリズムにとってはまだ難しいです。実際のデータセットに合成データを追加すると、学習サンプルが増え、多様性も高まります。
一方のデータセットで学習したアルゴリズムが、もう一方のデータセットでどれだけうまく機能するでしょうか？（転移学習）うまくいかない場合、アルゴリズムはおそらく音声の類似性の鍵を見つけていないと考えられます。
合成データは実際のデータセットを分類するのに十分でしょうか？もしそうであれば、その意味は大きいです。何千ものボランティアに何時間もの時間を割いてもらう必要はなくなります。代わりに、目的の単語に対して任意の合成データセットを簡単に作成することができます。

興味深いチャレンジ（コンペティションのアイデア）は、このデータセットで学習し、実際のデータセットで評価することです。

合成データの作成

ここでは、合成音声サンプルがどのように作成されたかを説明します。
コードはhttps://github.com/JohannesBuchner/spoken-command-recognitionの「tensorflow - speech - words」フォルダにあります。

単語のリストは「inputwords」にあります。「marvin」はまだ発音コードがないため、「marvel」に変更されました。
発音は、英国英語の例発音辞書（BEEP、http://svr-www.eng.cam.ac.uk/comp.speech/Section1/Lexical/beep.html）から取得されました。音素は、次のステップのために変換テーブルを使用して変換されました（詳細はcompile.pyを参照）。これにより、「words」ファイルが作成されます。各単語には複数の発音とアクセントがあります。
テキスト音声合成プログラム（espeak）を使用して、これらの単語を発音させました（詳細はgeneratetfspeech.shを参照）。発音、アクセント、ピッチ、速度、話者を変化させました。これにより、各単語について1000以上のクリーンなサンプルが得られます。
ノイズサンプルを取得しました。ノイズサンプル（空港の雑音、車の音、展示会の音、レストランの音、通りの音、地下鉄の音、電車の音）はAURORA（https://www.ee.columbia.edu/~dpwe/sounds/noise/)）から取得され、追加のノイズサンプルは合成的に作成されました（海の音、ホワイトノイズ、ブラウンノイズ、ピンクノイズ）。（詳細は../generatenoise.shを参照）
ノイズと音声を混合しました。音声の音量とオフセットを変化させました。ノイズのソースと音量も変化させました。詳細はaddnoise.pyを参照。addnoise2.pyも同じですが、音声の音量が低く、ノイズの音量が高くなっています。すべての音声ファイルは1秒（1s）の長さで、wav形式（16ビット、モノラル、16000Hz）です。
最後に、データをアーカイブに圧縮し、kaggleにアップロードしました。

謝辞

この研究は以下のものに基づいています。

発音辞書：BEEP：http://svr-www.eng.cam.ac.uk/comp.speech/Section1/Lexical/beep.html
ノイズサンプル：AURORA：https://www.ee.columbia.edu/~dpwe/sounds/noise/
eSPEAK：http://espeak.sourceforge.net/ およびmbrola音声 http://www.tcts.fpms.ac.be/synthesis/mbrola/mbrcopybin.html

この研究を使用する際には、上記のものに適切な引用を行ってください。

得られたデータセットを引用するには、以下のようにできます。

APA形式の引用：「Buchner J. Synthetic Speech Commands: A public dataset for single - word speech recognition, 2017. Available from https://www.kaggle.com/jbuchner/synthetic - speech - commands - dataset/」。

BibTeX @article{speechcommands, title={Synthetic Speech Commands: A public dataset for single - word speech recognition.}, author={Buchner, Johannes}, journal={Dataset available from https://www.kaggle.com/jbuchner/synthetic - speech - commands - dataset/}, year={2017} }

オープンソースの音声検出と音声認識を改善しようと努力している皆さんに感謝します。

No content available at the moment

Share your thoughts

Go share your ideas~~

ALL

Welcome to exchange and share

Your sharing can help others better utilize data.

Data usage instructions:

I. Data Source and Display Explanation:

1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.

2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.

3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.

II. Ownership Explanation:

1. All datasets on this site are copyrighted by their original publishers or data providers.

III. Data Reposting Explanation:

1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.

IV. Infringement and Handling Explanation:

1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.

Points：

20 Go earn points？

481
0
0
collect
Share

Select Language

AI Technology Community

Today search ranking

month_search_ranking

Dataset Category

Open Dataset

合成音声コマンドデータセット、「音声コマンドデータセット v0.01」のテキストと音声の対応項目

Data Structure ? 2.5G

Data Structure ?

*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

README.md

背景

アプローチ

未解決の問題

合成データの作成

謝辞

Similar Data

The dataset is currently being organized and other channels have been prepared for you. Please use them

The dataset is currently being organized and other channels have been prepared for you. Please use them

ALL

I. Data Source and Display Explanation:

II. Ownership Explanation:

III. Data Reposting Explanation:

IV. Infringement and Handling Explanation: