Open Dataset
Data Structure ?
15262.8M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
このデータセットには、英語、ドイツ語、スペイン語の音声サンプルが含まれています。
サンプルは、言語、性別、話者間で均等にバランスが取られています。
詳細な情報は[話し言葉データセットリポジトリ][sld]を参照してください。
## 背景
このプロジェクトは、TopCoderのコンテスト「[話し言葉2][tc]」に触発されて行われました。
与えられたデータセットには、176言語のうちの1つで録音された10秒間の音声が含まれています。
データセット全体は聖書の読み上げを元にしています。
残念ながら、多くの場合、言語ごとに1人の話者しかいません(ほとんどの場合男性です)。
さらに悪いことに、テストセットにも同じ1人の話者が含まれています。
もちろん、これでは良い汎用的な解決策にはつながりません。
私たちが取りうるアプローチは2つあります。
* 最初のアプローチは、すべての音声や言語の特性(例:性別、年齢、アクセント)が均等に現れる大規模なデータセットを使用することです。
良い例は[MozillaのCommon Voice][cv]です。
これにより、最も良いパフォーマンスが得られる可能性が高いです。
しかし、このような巨大なデータセットを処理するのはコストがかかり、新しい言語を追加するのも難しいです。
* 2つ目のアプローチは、小規模な手作りのデータセットを使用し、データ拡張で強化することです。
利点は、新しい言語をすばやく追加できることです。
そして最後に、データセットが小さいため、すばやく処理できます。
私たちは2つ目のアプローチを採用しました。
データセットの作成には[LibriVoxの録音][lv]を使用しました。
特に、多様な独自の話者に注目しました。
大きなバリエーションにより、モデルは特定の音声ではなく言語の特性にもっと集中するようになります。
サンプルは、言語、性別、話者間で均等にバランスが取られており、特定のサブグループを有利にすることはありません。
最後に、データセットは学習セットとテストセットに分割されます。
テストセットに含まれる話者は、学習セットには含まれません。
これにより、汎化誤差を推定するのに役立ちます。
学習セットのコアは、元の録音の420分(2520サンプル)を元にしています。
いくつかの音声変換(ピッチ、速度、ノイズ)を適用した後、学習セットは12180分(73080サンプル)に拡張されました。
テストセットには、元の録音の90分(540サンプル)が含まれています。データ拡張は適用されていません。
元の録音には90人の独自の話者が含まれています。
ピッチ(8つの異なるレベル)と速度(8つの異なるレベル)を調整することで、独自の話者の数が増えました。
音声変換を適用した後、1530人の独自の話者がいます。
## データ構造
データセットは2つのディレクトリに分割されています。
* *学習用*(73080サンプル)
* *テスト用*(540サンプル)
各サンプルは、次の特性を持つFLAC音声ファイルです。
* サンプルレート:22050
* ビット深度:16
* チャンネル:1
* 再生時間:10秒(正確)
元の録音はMP3ファイルですが、変換中に再エンコード(および品質の低下)を避けるため、すばやくFLACファイルに変換されます。
サンプルのファイル名は、次の構文に従います。
(言語)_(性別)_(録音ID).フラグメント(インデックス)[.(変換)(インデックス)].flac
...および変数:
* *言語*: `en`、`de`、または `es`
* *性別*: `m` または `f`
* *録音ID*: URLのハッシュ値
* *フラグメントインデックス*: 1 - 30
* *変換*: `speed`、`pitch`、または `noise`
* *変換インデックス*:
* `speed` の場合: 1 - 8
* `pitch` の場合: 1 - 8
* `noise` の場合: 1 - 12
例えば:
es_m_f7d959494477e5e7e33d4666f15311c9.fragment9.speed8.flac
## サンプルモデル
このデータセットは、[話し言葉識別モデル][sli]の学習に使用されました。
学習されたモデルは、テストセットに対して97%のスコア(すなわちF1メトリック)を達成しています。
さらに、実際のコンテンツに対しても良好な汎化性能を示していることが確認されています。
サンプルが完全に層別化されていることが、このような高いパフォーマンスを達成した理由の1つです。
自由に独自のモデルを作成し、結果を共有してください!
[tc]: https://community.topcoder.com/longcontest/?module=ViewProblemStatement&rd=16555&pm=13978
[sld]: https://github.com/tomasz-oponowicz/spoken_language_dataset
[sli]: https://github.com/tomasz-oponowicz/spoken_language_identification
[cv]: https://voice.mozilla.org/en/languages
[kg]: https://www.kaggle.com/toponowicz
[lv]: https://librivox.org
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.