Open Dataset
Data Structure ?
0.48M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
文脈
新しいWSD(単語の曖昧性解消)手法を開発する際には、何らかのWSD評価演習を用いてその手法を評価する必要があります。現在、WSD手法を評価するために利用できるこのような演習はほとんどありません。しかし、これらを使ってWSD手法を評価するにはいくつかのスキルが必要です。WSDシステムの評価を容易にするために、このデータセットが開発されました。このデータセットには4105文が含まれており、各文には1つ以上の多義語が含まれています。
内容
データセットファイルはエクセルファイル(.xlsx)です。このファイルには3つの列があります。シリアル番号(SN)、文/文脈列、および多義語列です。有用な列は1列目と3列目です。2列目には文(または文脈)が含まれています。文には複数の多義語が含まれている場合があります。ただし、3列目では2列目の文内の対象語(多義語)が指定されています。あなたが開発したWSDシステムが、2列目の対応する文内の3列目の対象語の曖昧性を解消できるかどうかを、文を使って確認することができます。
使用手順
新しいWSDシステムを開発した後、このデータセットを使って評価するには、以下の手順に従ってください。
1)「correct_id」と「calculated_id」という名前の2つの列を追加します。correct_idは、あなたのデータベース内の対象語の正しい意味の単語IDを意味し、これを4列目に格納します。テストデータ内のすべての文について、これを手動で入力する必要があります。calculated_idは、提供された文脈文に対する対象語の曖昧性解消後にあなたのWSDシステムによって生成される単語IDであり、これを5列目に格納します。
2)このエクセルファイルをアップロードし、2列目の文と3列目の対象語を読み取るモジュールを開発します。
3)文を文脈として、対象語を多義語としてあなたのシステムに入力して曖昧性を解消させます。
4)対象語の曖昧性解消後、対象語のcalculated_idを5列目に記入します。
5)6列目に、correct_idとcalculated_idが一致するかどうかを確認する式を記入します。一致する場合は、6列目の対応するセルに1を記入します。そうでない場合は、0を記入します。
6)6列目の末尾に、1の数をカウントする合計式を記入します。
7)以下の式を使ってあなたのシステムの精度を計算します。 - (1の総数/テスト文の総数)*100
データセットの出所
1)最初の2905文は、オンライン辞書やウェブなどから収集されました。
2)残りの1200文は、ブラウンコーパスの「ニュース」カテゴリから収集されました。
着想
このデータセットは、320の多義語の出現を含む4105文を含む使いやすいWSD評価演習を提供します。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.