Select Language

Open Dataset

UQSpeechDatasetデータベース

UQSpeechDatasetデータベース

5.09M
501 hits
0 likes
1 downloads
0 discuss
Software,Religion and Belief Systems,Linguistics Classification

Data Structure ? 5.09M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    # UQ音声アンビリ **テレン・ギニシュ(ディープラーニング)** 技術を用いたテキストを音声に変換する(Text To Speech)研究において、ウイグル語の音声アンビリの欠如という空白を埋めることを目的として作成されました。この音声アンビリを使用する際には、一切の制限はありません。ただし、使用する際には、論文や製品に **「UQ音声アンビリ」** を使用したと記載することをお願いします。
    当該音声アンビリは、**エクスメド・ピダイ** が読んだ、**故ムハンメド・サリ・ダモラ** が翻訳した **ウイグル語版コーラン・ケリムの[音声](http://www.truemuslims.net/Uyghur.html)** とテキストデータを基に作成されました。故ムハンメド・サリ・ダモラの眠る場所が天国になりますように、エクスメド・ピダイ先生に多くの恵みがありますように。彼らの努力がなければ、このアンビリは作成されず、上述の空白は埋められなかったでしょう。 この音声アンビリは、16187個の音声データとそれに対応するテキストから構成されており、音声の最長は10秒です。合計の音声の長さは28時間です(各音声の前後の無音も含みます)。 ## データの形式 1. テキストデータ(metadata.csv)はUTF - 8コードシステムで保存されており、各行は1つの音声データに対応しています。各行には合計4つの部分があります。 - 最初の部分:データの識別子。これに.wavを付けると音声データのファイル名になります。 - 2番目の部分:ウイグル・アラビア文字(UEY)のテキスト - 3番目の部分:ウイグル・ラテン文字(ULY)のテキスト - 4番目の部分:ウイグル・スラブ文字(USY)のテキスト 2. 音声データ(wavs)はディレクトリに格納されており、圧縮されず、16ビットのPCM WAV形式で保存されています。サンプルレートは22050Hzです。 ## その他: ウイグル語版コーラン・ケリムの音声データ(114個)をプログラムで10秒以上にならないパーツに分割した後、自作の**[AwazAmbiriQorali](https://github.com/gheyret/AwazAmbiriQorali)** (音声とテキストを対応付ける)を用いて、コーラン・ケリムのウイグル語テキストを使用して、音声とテキストを対応付けて作成しました。この作業には、**[ディルシャト・アブラ](https://github.com/shatdil)**、**[オスマン・チュルスン](https://github.com/neouyghur/)**、**[ルステム・メヘト](https://github.com/rustam)** の仲間たちが協力してくれました。その後、自分自身で最初から最後まで再度確認しました(1つの音声とそれに対応する行のテキストが一致するかどうか)。上記の3人の仲間たちに心から感謝します。
    - テキスト構成中の数字はすべて読みやすいように変換されました(12は「十二」と読むように)。 - 研究者の方々に便利なように、テキストをウイグル語のUEY、ULY、USYの3種類の形式で用意しました。 - また、英語の**[The LJ Speech Dataset](https://keithito.com/LJ-Speech-Dataset/)** と似た構造を使用しました。 ## ダウンロード - [Google Driver](https://drive.google.com/file/d/1sqcMf0Gl5FEiURQCQAV1SWW4R4f_VQt2/view?usp=sharing) から。(2.9GB、7z形式) - [Kenjisoft](http://www.kenjisoft.com/UQSpeech.7z) から。(2.9GB、7z形式)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 501
    • 1
    • 0
    • collect
    • Share