Open Dataset
Data Structure ?
478.09M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
序論
ヒトゲノムには約300億の塩基対が含まれており、科学者がゲノムをより効果的に理解し利用するために注釈が作成されています。
簡単に言えば、ゲノムは数十本(染色体)の長い文字列と見なすことができ、その異なる領域の機能を理解したいと思います。例えば、ある種の注釈として、染色体Zの位置Xから位置Yまでが遺伝子Dであるというものがあります。もちろん、現実はこれよりもはるかに複雑です。例えば、ある領域はエクソンであり、それは転写産物の一部であり、転写産物は遺伝子の一部であるため、複数のレベルで注釈付けされる可能性があります。
ゲノム注釈は通常、GTF(別名GFF2)またはGFT3形式で保存されます。これらの形式は表形式(例えばCSV)に非常に近いですが、慣れていない人にはアクセスしにくいです。
ここでは、最新のヒトゲノム注釈(GRCh38.92)の1つを単純なCSV形式に変換し、ゲノミクスに興味のあるデータサイエンティストが注釈内の構造を探索するよう促します。
変換は比較的簡単で、[gtf2csvリポジトリ](https://github.com/zyxue/gtf2csv)で見ることができます。簡単な説明に加えて、より詳細な技術的な詳細は[gtf2csv.py](https://github.com/zyxue/gtf2csv/blob/master/gtf2csv/gtf2csv.py)で提供されています。
謝辞
GTF形式の注釈は、ftp://ftp.ensembl.org/pub/release-92/gtf/homo_sapiens/Homo_sapiens.GRCh38.92.gtf.gzからダウンロードしたものです。
着想
ヒトゲノム注釈には非常に多くの情報が含まれており、可視化はそれを理解するための重要なキーの1つです。いくつかのゲノムブラウザ(例えば[UCSCゲノムブラウザ](http://genome.ucsc.edu//cgi-bin/hgTracks?db=hg38&position=lastDbPos)や[Ensemblゲノムブラウザ](https://uswest.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000012048;r=17:43044295-43170245))が存在しますが、私は世界中のすべてのデータサイエンティストが簡単にアクセスできる形式でこのような情報を提供することで、より革新的な可視化や分析方法が作成され共有され、すべての人に利益がもたらされると考えました。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.