Open Dataset
Data Structure ?
1.5G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
感情表現は人間の相互作用において不可欠な部分です。同じ文章でも、異なる感情を持って表現すると、意味が異なってくることがあります。したがって、文章を理解するだけでは、発話の意味を把握するには不十分です。演技や自然なコーパスが、音声から感情を検出するために用いられています。英語、ドイツ語、中国語、日本語、ロシア語、イタリア語、スウェーデン語、スペイン語など、様々な言語の音声データベースが、感情認識のモデリングに利用されています。入手可能なアラビア語のコーパスに関する報告はないため、我々は、最初のアラビア語自然音声データセット(ANAD)を収集することにしました。このデータセットは、離散的な感情を認識するためのものです。
音声認識システムに効果的な感情検出機能を組み込むことは、聴覚障害者が外界とコミュニケーションする際に直面する障害を減らすための有望な解決策と思われます。聴覚障害者が通常通り電話をかけたり受けたりできるアプリケーションがいくつか存在します。聴覚障害者はメッセージをタイプすると、相手がその言葉を話して聞くことができ、相手が話すと、聴覚障害者はその言葉をテキストとして受け取ることができます。しかし、感情の部分が欠けているため、これらのシステムはまだ100%信頼できるとは言えません。幼い頃から日常生活に効果的な音声テキスト変換システムやテキスト音声変換システムを導入することで、人間の耳に代わることが期待されます。このようなシステムは、聴覚障害者が幼い頃から通常の学校に入学するのを支援し、教室やクラスメートとの適応を助けます。彼らが普通の子ども時代を過ごし、外部の助けなしに社会に溶け込めるように育つのを助けます。
アンカーとスタジオ外の人物との生放送の通話のビデオ8本を、オンラインのアラビア語トークショーからダウンロードしました。それぞれのビデオを、発信者と受信者のターンに分割しました。各ビデオにラベルを付けるために、18人の聴取者に各ビデオを聴いてもらい、喜び、怒り、驚きの感情を感じるかどうかを選択してもらいました。無音、笑い声、ノイズのある部分は削除しました。その後、各部分を自動的に1秒の音声単位に分割し、最終的なコーパスを構成する1384件のレコードを作成しました。
25の音響特徴量、いわゆる低レベル記述子を抽出しました。これらの特徴量は、強度、ゼロ交差率、MFCC 1 - 12(メル周波数ケプストラム係数)、F0(基本周波数)とF0エンベロープ、有声化確率、LSP周波数0 - 7です。各特徴量に対して19の統計関数を適用しました。これらの関数は、最大値、最小値、範囲、最大値の絶対位置、最小値の絶対位置、算術平均、線形回帰1、線形回帰2、線形回帰A、線形回帰Q、標準偏差、尖度、歪度、四分位数1、2、3、四分位範囲1 - 2、2 - 3、1 - 3です。各低レベル記述子のデルタ係数も、一次導関数の推定値として計算され、合計950の特徴量が得られます。
指導教員の助けがなければ、私はここまで到達することはできませんでした。ラシェド・ザントウト博士、ラマ・ハマンディ博士、ジアド・オスマン博士に、彼らの指導、支援、常に続く監督に対して、心から感謝し、敬意を表します。
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.