Open Dataset
Data Structure ?
0.02M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
文脈
この乳がんデータベースは、ウィスコンシン大学病院(マディソン)のウィリアム・H・ウォルバーグ博士から取得されたものです。
内容
過去の利用状況:
属性2から10までは、事例を表すために使用されています。
各事例は、良性または悪性の2つの可能なクラスのいずれかを持っています。
1. Wolberg,~W.~H., \& Mangasarian,~O.~L. (1990). Multisurface method of
pattern separation for medical diagnosis applied to breast cytology. In
{\it Proceedings of the National Academy of Sciences}, {\it 87},
9193--9196.
-- データセットのサイズ:当時は369事例のみ
-- 収集された分類結果:1回の試行のみ
-- 2組の平行な超平面が、データの50%と一致することがわかりました
-- 残りの50%のデータセットに対する精度:93.5%
-- 3組の平行な超平面が、データの67%と一致することがわかりました
-- 残りの33%のデータセットに対する精度:95.9%
2. Zhang,~J. (1992). Selecting typical instances in instance-based
learning. In {\it Proceedings of the Ninth International Machine
Learning Conference} (pp. 470--479). Aberdeen, Scotland: Morgan
Kaufmann.
-- データセットのサイズ:当時は369事例のみ
-- 4つの事例ベースの学習アルゴリズムを適用
-- 10回の試行にわたって平均した分類結果を収集
-- 最良の精度結果:
-- 1-最近傍法:93.7%
-- 200事例で訓練し、残りの169事例でテスト
-- また興味深いこと:
-- 典型的な事例のみを使用:92.2%(23.1事例のみを保存)
-- 200事例で訓練し、残りの169事例でテスト
4. 関連情報:
サンプルは、ウォルバーグ博士が臨床事例を報告するたびに定期的に到着します。
したがって、データベースはこのデータの時系列的なグループ分けを反映しています。
このグループ分け情報は、データ自体から取り除かれて、すぐ下に表示されます。
グループ1:367事例(1989年1月)
グループ2:70事例(1989年10月)
グループ3:31事例(1990年2月)
グループ4:17事例(1990年4月)
グループ5:48事例(1990年8月)
グループ6:49事例(1991年1月更新)
グループ7:31事例(1991年6月)
グループ8:86事例(1991年11月)
-----------------------------------------
合計:699点(1992年7月15日の寄贈データベース時点)
過去の利用状況で要約された結果は、サイズ369のデータセットを指していますが、グループ1には367事例しかありません。これは、もともと369事例が含まれていたが、2つが削除されたためです。以下の文は、元のグループ1のデータセットに対する変更を要約しています。
## グループ1 : 367点: 200良性 167悪性(1989年1月)
## 1991年1月10日修正: 1080185と1187805の裸核を0から置き換え
## 1991年11月22日修正: 765878,4,5,9,7,10,10,10,3,8,1 レコードなしを削除
## : 484201,2,7,8,8,4,3,10,3,4,1 上皮細胞が0のものを削除
## : サンプル1219406のフィールド6の0を1に変更
## : 以下のサンプルのフィールド8の0を1に変更:
## : 1182404,2,3,1,1,1,2,0,1,1,1
5. 事例の数:699(1992年7月15日時点)
6. 属性の数:10個とクラス属性
7. 属性情報:(クラス属性は最後の列に移動されています)
# 属性 ドメイン
-- -----------------------------------------
1. サンプルコード番号 識別番号
2. 塊の厚さ 1 - 10
3. 細胞サイズの均一性 1 - 10
4. 細胞形状の均一性 1 - 10
5. 辺縁接着性 1 - 10
6. 単一上皮細胞サイズ 1 - 10
7. 裸核 1 - 10
8. 淡染クロマチン 1 - 10
9. 正常な核小体 1 - 10
10. 有糸分裂 1 - 10
11. クラス: (良性は2、悪性は4)
8. 欠損属性値:16
グループ1から6には、1つの欠損(すなわち、利用できない)属性値を含む16の事例があり、現在は「?」で表されています。
9. クラス分布:
良性: 458(65.5%)
悪性: 241(34.5%)
謝辞
1. O. L. MangasarianとW. H. Wolberg:「線形計画法によるがん診断」
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.