Open Dataset
Data Structure ?
42989M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
# NIH胸部X光データセット
---
国立衛生研究所胸部X光データセット
胸部X光検査は、最も頻繁に行われるコスト効果の高い医療画像検査の1つです。しかし、胸部X光の臨床診断は難しく、時には胸部CT画像による診断よりも困難な場合があります。注釈付きの大規模な公開データセットが不足しているため、胸部X光を用いた現実の医療現場で臨床的に関連するコンピュータ支援検出と診断(CAD)を達成することは、不可能ではないにしても、依然として非常に困難です。大規模なX光画像データセットを作成する際の主な障害の1つは、大量の画像をラベリングするためのリソースが不足していることです。このデータセットが公開される前は、[Openi][1]が4,143枚の胸部X光画像を提供する最大の公開ソースでした。
このNIH胸部X光データセットは、30,805人の固有の患者から収集された疾患ラベル付きの112,120枚のX光画像で構成されています。これらのラベルを作成するために、著者らは自然言語処理を用いて、関連する放射線科レポートから疾患分類をテキストマイニングしました。ラベルの精度は90%以上と予想されており、弱教師付き学習に適しています。元の放射線科レポートは公開されていませんが、ラベリングプロセスの詳細はこのオープンアクセス論文「ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases.」(*Wang et al.*)で確認できます。
[論文へのリンク][30]
[1]: https://openi.nlm.nih.gov/
データの制限事項: 1. 画像ラベルは自然言語処理で抽出されているため、一部の誤ったラベルが存在する可能性がありますが、自然言語処理によるラベリング精度は90%以上と推定されています。 2. 疾患領域のバウンディングボックスの数が非常に限られています(BBox_list_2017.csvを参照) 3. 胸部X光の放射線科レポートは公開される予定はありません。この公開データセットを使用する団体は、後で独自の研究で「更新された」画像ラベルや新しいバウンディングボックスを共有することを推奨します。おそらく手動での注釈付けを通じてです。
ファイル内容 - **画像形式**: 合計112,120枚の画像で、サイズは1024 x 1024 - **images_001.zip**: 4999枚の画像を含む - **images_002.zip**: 10,000枚の画像を含む - **images_003.zip**: 10,000枚の画像を含む - **images_004.zip**: 10,000枚の画像を含む - **images_005.zip**: 10,000枚の画像を含む - **images_006.zip**: 10,000枚の画像を含む - **images_007.zip**: 10,000枚の画像を含む - **images_008.zip**: 10,000枚の画像を含む - **images_009.zip**: 10,000枚の画像を含む - **images_010.zip**: 10,000枚の画像を含む - **images_011.zip**: 10,000枚の画像を含む - **images_012.zip**: 7,121枚の画像を含む - **README_ChestXray.pdf**: 元のREADMEファイル - **BBox_list_2017.csv**: バウンディングボックスの座標。 *注: x,yから始まり、水平方向にwピクセル、垂直方向にhピクセル拡張する* - 画像インデックス: ファイル名 - 検出ラベル: 疾患タイプ(クラスラベル) - バウンディングボックスのx座標 - バウンディングボックスのy座標 - バウンディングボックスの幅 - バウンディングボックスの高さ - **Data_entry_2017.csv**: データセット全体のクラスラベルと患者データ - 画像インデックス: ファイル名 - 検出ラベル: 疾患タイプ(クラスラベル) - フォローアップ番号 - 患者ID - 患者の年齢 - 患者の性別 - 撮影位置: X光の撮影方向 - 元画像の幅 - 元画像の高さ - 元画像の水平方向の画素間隔 - 元画像の垂直方向の画素間隔
クラスの説明 15のクラスがあります(14の疾患と、「異常なし」の1つ)。画像は「異常なし」または1つ以上の疾患クラスに分類できます: - 肺不張 - 肺実質化 - 浸潤 - 気胸 - 浮腫 - 肺気腫 - 線維症 - 胸水貯留 - 肺炎 - 胸膜肥厚 - 心拡大 - 結節・腫瘤 - ヘルニア
全データセットの内容 合計12個のzipファイルがあり、サイズは約2GBから4GBの範囲です。さらに、これらの画像の5%をランダムにサンプリングして、Kernelsで使用するための小規模なデータセットを作成しました。ランダムサンプルには5606枚のX光画像とクラスラベルが含まれています。 - [サンプル][9]: sample.zip [9]: https://www.kaggle.com/nih-chest-xrays/sample
元データへの変更点 - 元のTARアーカイブは、Kaggleプラットフォームと互換性を持たせるためにZIPアーカイブに変換されました - CSVのヘッダーは、カンマ区切りがより明確になるように、また各フィールドが自明になるように若干変更されました
引用 - Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. IEEE CVPR 2017, [ChestX-ray8_Hospital-Scale_Chest_CVPR_2017_paper.pdf][30] - NIHのニュースリリース: [NIH Clinical Center provides one of the largest publicly available chest x-ray datasets to scientific community][30] - 元のソースファイルとドキュメント: [https://nihcc.app.box.com/v/ChestXray-NIHCC/folder/36938765345][31]
謝辞 この研究は、国立臨床センター(clinicalcenter.nih.gov)と国立医学図書館(www.nlm.nih.gov)の内部研究プログラムによって支援されました。 [30]: https://www.nih.gov/news-events/news-releases/nih-clinical-center-provides-one-largest-publicly-available-chest-x-ray-datasets-scientific-community [31]: https://nihcc.app.box.com/v/ChestXray-NIHCC/folder/36938765345
データの制限事項: 1. 画像ラベルは自然言語処理で抽出されているため、一部の誤ったラベルが存在する可能性がありますが、自然言語処理によるラベリング精度は90%以上と推定されています。 2. 疾患領域のバウンディングボックスの数が非常に限られています(BBox_list_2017.csvを参照) 3. 胸部X光の放射線科レポートは公開される予定はありません。この公開データセットを使用する団体は、後で独自の研究で「更新された」画像ラベルや新しいバウンディングボックスを共有することを推奨します。おそらく手動での注釈付けを通じてです。
ファイル内容 - **画像形式**: 合計112,120枚の画像で、サイズは1024 x 1024 - **images_001.zip**: 4999枚の画像を含む - **images_002.zip**: 10,000枚の画像を含む - **images_003.zip**: 10,000枚の画像を含む - **images_004.zip**: 10,000枚の画像を含む - **images_005.zip**: 10,000枚の画像を含む - **images_006.zip**: 10,000枚の画像を含む - **images_007.zip**: 10,000枚の画像を含む - **images_008.zip**: 10,000枚の画像を含む - **images_009.zip**: 10,000枚の画像を含む - **images_010.zip**: 10,000枚の画像を含む - **images_011.zip**: 10,000枚の画像を含む - **images_012.zip**: 7,121枚の画像を含む - **README_ChestXray.pdf**: 元のREADMEファイル - **BBox_list_2017.csv**: バウンディングボックスの座標。 *注: x,yから始まり、水平方向にwピクセル、垂直方向にhピクセル拡張する* - 画像インデックス: ファイル名 - 検出ラベル: 疾患タイプ(クラスラベル) - バウンディングボックスのx座標 - バウンディングボックスのy座標 - バウンディングボックスの幅 - バウンディングボックスの高さ - **Data_entry_2017.csv**: データセット全体のクラスラベルと患者データ - 画像インデックス: ファイル名 - 検出ラベル: 疾患タイプ(クラスラベル) - フォローアップ番号 - 患者ID - 患者の年齢 - 患者の性別 - 撮影位置: X光の撮影方向 - 元画像の幅 - 元画像の高さ - 元画像の水平方向の画素間隔 - 元画像の垂直方向の画素間隔
クラスの説明 15のクラスがあります(14の疾患と、「異常なし」の1つ)。画像は「異常なし」または1つ以上の疾患クラスに分類できます: - 肺不張 - 肺実質化 - 浸潤 - 気胸 - 浮腫 - 肺気腫 - 線維症 - 胸水貯留 - 肺炎 - 胸膜肥厚 - 心拡大 - 結節・腫瘤 - ヘルニア
全データセットの内容 合計12個のzipファイルがあり、サイズは約2GBから4GBの範囲です。さらに、これらの画像の5%をランダムにサンプリングして、Kernelsで使用するための小規模なデータセットを作成しました。ランダムサンプルには5606枚のX光画像とクラスラベルが含まれています。 - [サンプル][9]: sample.zip [9]: https://www.kaggle.com/nih-chest-xrays/sample
元データへの変更点 - 元のTARアーカイブは、Kaggleプラットフォームと互換性を持たせるためにZIPアーカイブに変換されました - CSVのヘッダーは、カンマ区切りがより明確になるように、また各フィールドが自明になるように若干変更されました
引用 - Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. IEEE CVPR 2017, [ChestX-ray8_Hospital-Scale_Chest_CVPR_2017_paper.pdf][30] - NIHのニュースリリース: [NIH Clinical Center provides one of the largest publicly available chest x-ray datasets to scientific community][30] - 元のソースファイルとドキュメント: [https://nihcc.app.box.com/v/ChestXray-NIHCC/folder/36938765345][31]
謝辞 この研究は、国立臨床センター(clinicalcenter.nih.gov)と国立医学図書館(www.nlm.nih.gov)の内部研究プログラムによって支援されました。 [30]: https://www.nih.gov/news-events/news-releases/nih-clinical-center-provides-one-largest-publicly-available-chest-x-ray-datasets-scientific-community [31]: https://nihcc.app.box.com/v/ChestXray-NIHCC/folder/36938765345
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.