Open Dataset
Data Structure ?
585.1M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
文脈
DeepTriageの概要より:
与えられたソフトウェアのバグレポートに対して、潜在的にそのバグを修正できる適切な開発者を特定することが、バグトライアージプロセスの主要なタスクです。ほとんどのバグ追跡システムには、バグのタイトル(要約)と詳細な説明が含まれています。自動バグトライアージアルゴリズムは、バグのタイトルと説明を入力として受け取り、それを利用可能な開発者(クラスラベル)の1つにマッピングする分類問題として定式化できます。主な課題は、バグの説明には通常、自由な非構造化テキスト、コードスニペット、およびスタックトレースの組み合わせが含まれており、入力データが非常にノイズの多いものになっていることです。過去10年間、tf-idfベースの単語バッグ特徴量(BOW)モデルを使用してバグレポートを表現する研究がかなり行われてきました。しかし、BOWモデルは、説明的な文に含まれる構文的および順序的な単語情報を考慮していません。
この研究では、教師なし学習によって長い単語シーケンスから構文的および意味的特徴を学習する、アテンションベースの深層双方向再帰型ニューラルネットワーク(DBRNN - A)モデルを使用した新しいバグレポート表現アルゴリズムを提案します。BOW特徴量の代わりに、DBRNN - Aベースの堅牢なバグ表現を分類モデルの学習に使用します。さらに、アテンションメカニズムを使用することで、モデルがバグレポートのような長い単語シーケンスにわたる文脈表現を学習できるようになります。特徴学習モデルを学習するための大量のデータを提供するために、未修正のバグレポート(オープンソースのバグ追跡システムでは約70%のバグを占める)を活用しており、これは以前の研究では完全に無視されていた本研究の重要な貢献です。
もう1つの大きな貢献は、ソースコードを公開し、Google Chromium、Mozilla Core、およびMozilla Firefoxの3つのオープンソースバグ追跡システムからのバグレポートの公開ベンチマークデータセットを作成することで、この研究を再現可能にすることです。実験では、Google Chromiumから383,104件のバグレポート、Mozilla Coreから314,388件のバグレポート、およびMozilla Firefoxから162,307件のバグレポートを使用します。実験的に、私たちのアプローチをBOWモデルおよびソフトマックス分類器、サポートベクターマシン、ナイーブベイズ、およびコサイン距離と比較し、DBRNN - Aがより高いランク10平均精度を提供することを観察しました。
内容
このデータセットには、Google Chromiumのバグデータが4つの異なる学習セットと1つのテストセットで含まれています。
- **classifier_data_0.csv** は、どのクラスについても最小出現回数が設定されていない学習データのバージョンです(最も不均衡)。
- **classifier_data_5.csv** は、すべてのクラスが少なくとも5回出現する学習データのバージョンが含まれています。
- **classifier_data_10.csv** は、すべてのクラスが少なくとも10回出現する学習データのバージョンが含まれています。
- **classifier_data_20.csv** は、すべてのクラスが少なくとも20回出現する学習データのバージョンが含まれています(最も均衡)。
- **deep_data.csv** は、テストデータが含まれています。
*このデータでは、クラスは所有者です。
謝辞
DeepTriage: Exploring the Effectiveness of Deep Learning for Bug Triaging. Senthil Mani, Anush Sankaran, Rahul Aralikatte, IBM Research, India.
データセット、コード、および論文はこのWebページで見ることができます。
http://bugtriage.mybluemix.net/
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.