Open Dataset
Data Structure ?
0M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
ご注意ください。
テーブル `TitleVersion` と `Votes` は、データプレビューページではまだ表示されていませんが、カーネルではアクセス可能です。
背景
Stack Overflow (SO) は、ソフトウェア開発者に最も人気のある質問と回答のウェブサイトで、様々なトピックに関する大量のコードスニペットと自由形式のテキストを提供しています。他のソフトウェアアーティファクトと同様に、SO の質問と回答も時間とともに進化します。たとえば、コードスニペットのバグが修正されたり、コードが最新のライブラリバージョンで動作するように更新されたり、コードスニペットの周囲のテキストが明確になるように編集されたりします。SO のコンテンツがどのように進化するかを分析できるように、公式の SO データダンプに基づくオープンデータセット *SOTorrent* を構築しました。
内容
*SOTorrent* は、SO コンテンツのバージョン履歴を、投稿全体や個々のテキストまたはコードブロックのレベルで提供します。テキストブロックやコメントから URL を集約し、GitHub ファイルから SO 投稿への参照を収集することで、SO 投稿を他のプラットフォームに接続します。私たちのビジョンは、研究者が *SOTorrent* を使用して、SO 投稿の進化と、GitHub などの他のプラットフォームとの関係を調査および理解することです。あなたがこのデータセットをあなたの研究で使用する場合は、[MSR 2018 論文][1] または [MSR 2019 マイニングチャレンジ提案][2] を引用してください。
このバージョンは、2018 年 12 月 2 日に公開された公式の [Stack Overflow データダンプ][3] と、2018 年 12 月 9 日にクエリされた [Google BigQuery GitHub データセット][4] に基づいています。
着想
[MSR 2019 マイニングチャレンジ][5] の目標は、Stack Overflow のコードスニペットの起源、進化、および使用方法を研究することです。私たちの知る限り、まだ十分に回答されていない質問には、以下のようなものがあります。
- Stack Overflow のコードスニペットはどのように維持されていますか?
- Stack Overflow 内にはコードスニペットのクローンが何個存在していますか?
- Stack Overflow のコードスニペットのバグのあるバージョンをどのように検出し、GitHub プロジェクト内で見つけることができますか?
- 外部ソースから Stack Overflow にコードスニペットがどれくらいの頻度でコピーされ、そこで共進化しますか?
- Stack Overflow から GitHub にコピーされたスニペットはどのように共進化しますか?
- Stack Overflow のコードスニペットの進化にはパターンがありますか?
- これらのパターンはプログラミング言語によって異なりますか?
- 外部ソースのライセンスは Stack Overflow のライセンス (CC BY - SA 3.0) と互換性がありますか?
- Stack Overflow のコードブロックのうち、ソースコードを含まず (マークアップのみに使用される) ものは何個ありますか?
- Stack Overflow のコードに対するバグ修正編集を確実に予測できますか?
- Stack Overflow のコードスニペットの GitHub での人気を確実に予測できますか?
これらは、*SOTorrent* を使用して回答できる質問の一部に過ぎません。私たちは、チャレンジ参加者に、上記の質問を適応させたり、Stack Overflow のコンテンツの起源、進化、および使用方法に関する独自の研究質問を策定したりすることを奨励します。
[1]: http://empirical-software.engineering/publications#msr18-sotorrent
[2]: http://empirical-software.engineering/publications#msr19-sotorrent
[3]: https://archive.org/details/stackexchange
[4]: https://cloud.google.com/bigquery/public-data/github
[5]: https://2019.msrconf.org/track/msr-2019-Mining-Challenge#Call-for-Mining-Challenge-Papers
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.