Select Language

Open Dataset

VoxForge音声ライブラリ

VoxForge音声ライブラリ

12.6G
543 hits
0 likes
0 downloads
0 discuss
Music Analysis Audio

Data Structure ? 12.6G

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    VoxForgeは、無料かつオープンソース音声認識エンジンのために、(Linux/Unix、Windows、Macプラットフォーム上で)アノテーション付きの録音データを収集することを目的として創設されました。

    私たちは、すべての提出された録音ファイルをGPLライセンスで公開し、オープンソースの音声認識エンジン(CMUSphinxISIPJuliasgithub)、HTK(注:HTKには配布制限があります)など)で使用できる音響モデルを作成しています。

    なぜ無料のGPLライセンスの録音データが必要なのか? オープンソースの音声認識(または音声文字起こし)エンジンで使用される音響モデルは**クローズドソース**です。ユーザーは、これらの音響モデルを作成するために使用される音声データやアノテーションファイル(つまりコーパス)にアクセスする権限がありません。 このような状況になっているのは、実際に音声認識エンジンの音響モデルを作成するために使用できるコーパスが無料で入手できないからです。オープンソースプロジェクトは、限定的な著作権を持つコーパスを購入する必要があります。つまり、コーパスデータを配布することは許可されていませんが、それらのデータを使って作成した音響モデルは配布できます。

    貢献する方法あなたのコンピュータで録音を提出する」アイコンをクリックして、あなたのコンピュータで音声を録音してVoxForgeに提出する方法を学びましょう。

    スクリプトをダウンロード(pythonクローリング):

    import urllib
    import urllib2
    import os
    import re
    os.chdir('D:\voxforge speech files\')#現在のパスを変更
    #refiles=open('speech_files_path.txt','w+')#すべてのダウンロードリンクを保存
    mainpath='http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/Audio/Main/16kHz_16bit/'
    def gettgz(url):
        page=urllib.urlopen(url)
        html=page.read()
        reg=r'href=".*.tgz"'
        tgzre=re.compile(reg)
        tgzlist=re.findall(tgzre,html)  #すべての.tgzファイルを見つける
        for i in tgzlist:
            filename=i.replace('href="','')
            filename=filename.replace('"','')
            print 'ダウンロード中:'+filename #ダウンロード中のファイルを表示
            downfile=i.replace('href="',mainpath)
            downfile=downfile.replace('"','') #各ファイルの完全なリンクを取得
            req = urllib2.Request(downfile)  #ファイルをダウンロード
            ur = urllib2.urlopen(req).read()
            open(filename,'wb').write(ur) #ダウンロードしたファイルをtgz形式でDドライブに保存
    refiles.write(downfile+'
    ')
    html=gettgz(mainpath)
    #refiles.close()
    

    または、kaldiのスクリプトを使用:

    https://github.com/kaldi-asr/kaldi/blob/master/egs/voxforge/s5/getdata.sh

    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 543
    • 0
    • 0
    • collect
    • Share