Open Dataset
Data Structure ?
569.52M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
コンテキスト
近年、マドリードでは特定の乾燥期に高レベルの汚染が発生し、当局は市街地の自動車使用に対する対策を講じることを余儀なくされ、また都市計画に大幅な変更を提案する根拠として利用されています。[マドリード市議会のオープンデータウェブサイト][1]により、アップロードされた大気質データは公開されています。利用可能なファイルはいくつかあり、2001年から2018年までに記録されたレベルの[日次][2]および[時間別][3]の履歴データ、そして市内の汚染やその他の粒子分析に使用されている[測定局のリスト][4]が含まれています。
しかし、データ分析と時系列の観点からこのデータを調査すると、その形式がやや混乱を招き、一般的ではなく、データセットのいくつかの設計決定が最適とは言えないことがわかりました。時間別データは、年によって若干異なる形式を含む月次ファイルに分割されており、これも同様に珍しい形式です。行は特定の日の特定の測定値で、それぞれ24列(1日の1時間ごとに1列)があり、制御文字が含まれています。この制御文字は、測定値が有効な場合は`V`、無効な場合は主に(必ずしもすべてではないが)`N`です。
履歴データを調査する際のこれらの障害は、オープンデータの目的である公的監査や自由な調査、実験目的での使用を台無しにする可能性があります。そのため、Decideでは、一般的な標準と高性能な形式を使用して使いやすく設計された独自のデータバージョンをリリースしています。これにより、より高速で小さく、使いやすく直感的な構造のデータセットを提供することができます。
内容
すべてのデータは元のファイルから抽出され、典型的なKaggleの目的に適したより便利な形式に加工されています。元のデータは時間を異なる列とし、測定値を異なる行としていますが、このバージョンは逆に構成されています。つまり、各行にはタイムスタンプが付けられ、列は特定の測定局でその時点で行われた異なる測定値です。これにより、時系列分析と予測タスクの準備をより迅速に行うことができます。
このデータセットでは、測定局を最上位の階層レベルとして定義しています。各測定局の履歴は、ファイルから個別に抽出してさらに研究することができます。各測定局のDataFrame内には、その測定局が2001年1月から2018年4月の期間(この期間中稼働していた場合)に記録したすべての粒子測定値が含まれています。すべての測定局が同じ設備を持っているわけではないため、各測定局は特定の粒子サブセットのみを測定することができます。可能な測定値の完全なリストとその説明([元の説明ドキュメント][5]に従って)は以下の通りです。
- `SO_2`:二酸化硫黄レベル(μg/m3で測定)。高レベルの二酸化硫黄は、皮膚や粘膜に刺激を引き起こし、敏感なグループの喘息や心臓病を悪化させる可能性があります。
- `CO`:一酸化炭素レベル(mg/m3で測定)。一酸化炭素中毒は、短期間の暴露では頭痛、めまい、混乱を引き起こし、長期的には意識喪失、不整脈、発作、さらには死亡に至る可能性があります。
- `NO`:一酸化窒素レベル(μg/m3で測定)。これは、自動車や燃料燃焼プロセスなどによって生成される腐食性の高いガスです。
- `NO_2`:二酸化窒素レベル(μg/m3で測定)。長期暴露は慢性肺疾患の原因となり、植物にも有害です。
- `PM25`:2.5μm未満の粒子レベル(μg/m3で測定)。これらの粒子のサイズにより、肺のガス交換領域(肺胞)に侵入し、さらには動脈に入ることができます。長期暴露は、新生児の低出生体重と高血圧に関連することが証明されています。
- `PM10`:10μm未満の粒子。肺胞には侵入できませんが、肺を通して他の臓器に影響を与えることができます。長期暴露は、肺癌や心血管系の合併症を引き起こす可能性があります。
- `NOx`:窒素酸化物レベル(μg/m3で測定)。人間の呼吸器系に影響を与え、喘息や他の疾患を悪化させ、光化学スモッグの黄褐色の原因となります。
- `O_3`:オゾンレベル(μg/m3で測定)。高レベルのオゾンは、敏感なグループや屋外労働者に喘息、気管支炎、またはその他の慢性肺疾患を引き起こす可能性があります。
- `TOL`:トルエン(メチルベンゼン)レベル(μg/m3で測定)。この物質(タバコの煙にも含まれる)への長期暴露は、腎臓の合併症や永久的な脳損傷を引き起こす可能性があります。
- `BEN`:ベンゼンレベル(μg/m3で測定)。ベンゼンは目や皮膚を刺激し、長期暴露はいくつかの種類の癌、白血病、貧血を引き起こす可能性があります。ベンゼンは、国際がん研究機関(IARC)によってヒトに対する第1群発がん物質とされています。
- `EBE`:エチルベンゼンレベル(μg/m3で測定)。長期暴露は、聴力や腎臓の問題を引き起こす可能性があり、IARCは長期暴露が癌を引き起こす可能性があると結論付けています。
- `MXY`:*m*-キシレンレベル(μg/m3で測定)。キシレンは空気だけでなく水や土壌にも影響を与えることができ、高レベルのキシレンへの長期暴露は、肝臓、腎臓、神経系(特に記憶や刺激反応)に影響を与える疾患を引き起こす可能性があります。
- `PXY`:*p*-キシレンレベル(μg/m3で測定)。キシレン暴露の健康への影響については`MXY`を参照してください。
- `OXY`:*o*-キシレンレベル(μg/m3で測定)。キシレン暴露の健康への影響については`MXY`を参照してください。
- `TCH`:総炭化水素レベル(mg/m3で測定)。この物質群は、さまざまな血液、免疫系、肝臓、脾臓、腎臓、または肺の疾患の原因となる可能性があります。
- `CH4`:メタンレベル(mg/m3で測定)。このガスは窒息性ガスで、動物が呼吸に必要な酸素を押しのけます。酸素が押しのけられると、めまい、脱力感、吐き気、協調運動の喪失を引き起こす可能性があります。
- `NMHC`:非メタン炭化水素(揮発性有機化合物)レベル(mg/m3で測定)。これらの物質の一部への長期暴露は、肝臓、腎臓、および中枢神経系の損傷を引き起こす可能性があります。その一部はヒトに癌を引き起こす疑いがあります。
また、ファイルには`master` DataFrameも含まれており、稼働中の測定局に関する情報が含まれています。オープンデータファイルには活動を停止した測定局に関する情報が提供されていないため、稼働中の測定局のみが含まれていることに注意してください。
この階層構造を使用して、HDF5ファイルに保存することができます。このファイルは圧縮されており、連続したデータにアクセスする際のパフォーマンスが高く(この時系列インデックス設計の場合)、元のページで月次ファイルとして提供されている合計250MiBの同じ情報を、たった74MiBの単一の構造化ファイルにまとめることができます。一部の人はまだHDF5形式に慣れていないかもしれないので、Pythonでデータを調査し始めやすくするためのコードスニペットを提供しています。HDF5形式の簡単な紹介は[このカーネル][6]で見ることができます。
ただし、何らかの理由でHDF5の使用が依然として不便な場合、このデータセットには、同じ情報がテキスト形式のCSVファイルにまとめられたzipフォルダと、`master` DataFrameに相当する`stations.csv`ファイルも提供されています。これらのCSVファイルはデータの再構成の恩恵を受けますが、パフォーマンス面での利点がないため、はるかに重くなります(圧縮後174MiB、解凍後500MiB)。
出典とライセンス
このデータセットに含まれるすべてのデータは、[マドリード市議会のオープンデータウェブサイト][7]から取得されており、データ収集についてはこのウェブサイトを承認すべきです。このデータセットは、データサイエンティストにより便利な形式を提供するとともに、単一の場所でいくつかの強化されたコンテキストを提供することを目的としています。
したがって、このデータは[マドリードオープンデータの利用規約][8]を引き継いでおり、商用および非商用の無料使用が許可され、データに関する責任は一切負いません。ライセンスに関する詳細については、前述の利用規約を詳述したドキュメント(スペイン語)を参照してください。
インスピレーション
このデータセットは、オープンデータウェブサイトで提供されている履歴データの不便さと不規則性に対する不満から作成されました。このデータセットには、18年間(2001年 - 2018年)の時間別データが1つのファイルに実用的な形式で収められており、時系列分析やその他の予測タスクに最適なプレイグラウンドとなっています。どのように異なる...
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.