Open Dataset
Data Structure ?
12.6G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
VoxForgeは、無料かつオープンソースの音声認識エンジンのために、(Linux/Unix、Windows、Macプラットフォーム上で)アノテーション付きの録音データを収集することを目的として創設されました。
私たちは、すべての提出された録音ファイルをGPLライセンスで公開し、オープンソースの音声認識エンジン(CMUSphinx、ISIP、Julias(github)、HTK(注:HTKには配布制限があります)など)で使用できる音響モデルを作成しています。
なぜ無料のGPLライセンスの録音データが必要なのか? オープンソースの音声認識(または音声文字起こし)エンジンで使用される音響モデルは**クローズドソース**です。ユーザーは、これらの音響モデルを作成するために使用される音声データやアノテーションファイル(つまりコーパス)にアクセスする権限がありません。 このような状況になっているのは、実際に音声認識エンジンの音響モデルを作成するために使用できるコーパスが無料で入手できないからです。オープンソースプロジェクトは、限定的な著作権を持つコーパスを購入する必要があります。つまり、コーパスデータを配布することは許可されていませんが、それらのデータを使って作成した音響モデルは配布できます。
貢献する方法 「あなたのコンピュータで録音を提出する」アイコンをクリックして、あなたのコンピュータで音声を録音してVoxForgeに提出する方法を学びましょう。
スクリプトをダウンロード(pythonクローリング):
import urllib
import urllib2
import os
import re
os.chdir('D:\voxforge speech files\')#現在のパスを変更
#refiles=open('speech_files_path.txt','w+')#すべてのダウンロードリンクを保存
mainpath='http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/Audio/Main/16kHz_16bit/'
def gettgz(url):
page=urllib.urlopen(url)
html=page.read()
reg=r'href=".*.tgz"'
tgzre=re.compile(reg)
tgzlist=re.findall(tgzre,html) #すべての.tgzファイルを見つける
for i in tgzlist:
filename=i.replace('href="','')
filename=filename.replace('"','')
print 'ダウンロード中:'+filename #ダウンロード中のファイルを表示
downfile=i.replace('href="',mainpath)
downfile=downfile.replace('"','') #各ファイルの完全なリンクを取得
req = urllib2.Request(downfile) #ファイルをダウンロード
ur = urllib2.urlopen(req).read()
open(filename,'wb').write(ur) #ダウンロードしたファイルをtgz形式でDドライブに保存
refiles.write(downfile+'
')
html=gettgz(mainpath)
#refiles.close()
または、kaldiのスクリプトを使用:
https://github.com/kaldi-asr/kaldi/blob/master/egs/voxforge/s5/getdata.sh
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.