Open Dataset
Data Structure ?
130M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
ショウジョウバエ(Drosophila Melanogaster)
ショウジョウバエ(Drosophila Melanogaster)は、一般的なミバエであり、昆虫学の研究で広く使用されているモデル生物です。生物学の研究、特に遺伝学と発生生物学において、最も研究されている生物の一つです。
科学研究に使用されていないとき、ショウジョウバエ(D. melanogaster)は家庭、レストラン、そして食べ物を提供するあらゆる場所で一般的な害虫となります。これらはミバエ科(Tephritidae)のハエ(果実ハエとしても知られている)と混同しないでください。
https://en.wikipedia.org/wiki/Drosophila_melanogaster
ゲノムについて
このゲノムは2000年に最初に配列決定されました。4組の染色体(2、3、4およびX/Y)を含んでいます。ゲノムの60%以上は機能的な非タンパク質コードDNAのようです。
このゲノムは Flybase で維持され、頻繁に更新されています。このデータセットはUCSCゲノムバイオインフォマティクスのダウンロードページから取得されています。ショウジョウバエゲノムの2014年8月版(dm6、BDGP Release 6 + ISO1 MT)を使用しています。 http://hgdownload.soe.ucsc.edu/downloads.html#fruitfly
ファイルはKaggleによって、スクリプトでの分析により適した形式に変更されました。主にファイルをCSV形式に変換し、ヘッダー行を追加するとともに、ゲノム自体を2bit形式からFASTA配列ファイルに変換しました。
バイオインフォマティクス
ゲノム解析は、これまでバイオインフォマティクスの経験が少ないデータサイエンティストにとっては困難な場合があります。このデータセットの各ファイルについて基本的な説明を提供し、それぞれの生物学的基礎に関するさらなる読み物へのリンクも用意しました。これまで生物学の学習機会が少ない場合、以下のトピックに関する軽い読書(例えばウィキペディア)が、ここで提供されているデータの細かい点を理解するのに役立つかもしれません。 遺伝学、 ゲノミクス( 配列決定/ ゲノムアセンブリ)、 染色体、 DNA、 RNA( mRNA/ miRNA)、 遺伝子、 対立遺伝子、 エクソン、 イントロン、 転写、 翻訳、 ペプチド、 タンパク質、 遺伝子発現調節、 突然変異、 系統学、および 一塩基多型(SNP)。
もちろん、すでに基本的な知識がある場合は、迷わずに取り組んでください!
バイオインフォマティクスの学習
ウェブ上にはバイオインフォマティクスを学ぶための素晴らしいリソースがたくさんあります。面白いサイトの一つが Rosalind です。これはバイオインフォマティクスのコーディング課題を提供するプラットフォームです。このデータセットを使ってKaggleスクリプトを使用することで、Rosalindの課題を簡単に解くことができます(困ったときは マイルズの解決策をこちらで確認)。KaggleのDockerイメージには Biopython がセットアップされており、分析に役立つ素晴らしいライブラリです。 こちらのチュートリアルをチェック して、このデータセットに適用したチュートリアルの一部を含むPythonノートブックも作成しました ので参考にしてください。
このデータセットのファイル
ショウジョウバエゲノム
genome.fa
アセンブルされたゲノム自体は FASTA形式 でここに提示されています。各染色体は異なるヌクレオチド配列です。RepeatMaskerとTandem Repeats Finder(周期が12以下)による反復配列は小文字で表示され、反復しない配列は大文字で表示されます。
メタ情報
ゲノムに関するメタ情報が含まれた追加の3つのファイルがあります。
meta-cpg-island-ext-unmasked.csv
このファイルには、ゲノム内のCpGアイランドに関する記述的な情報が含まれています。
https://en.wikipedia.org/wiki/CpG_site
meta-cytoband.csv
このファイルは、各染色体上の細胞遺伝学的バンドの位置を記述しています。
https://en.wikipedia.org/wiki/Cytogenetics
meta-simple-repeat.csv
このファイルは、ゲノム内の単純なタンデム反復配列を記述しています。
https://en.wikipedia.org/wiki/Repeated_sequence_(DNA)
https://en.wikipedia.org/wiki/Tandem_repeat
ショウジョウバエのmRNA配列
メッセンジャーRNA(mRNA)は、ゲノム情報をタンパク質に変換する細胞プロセスの一部として生成される中間分子です。一部のmRNAはタンパク質に翻訳されることはなく、細胞内で独自の機能的な役割を果たしています。生物のmRNA情報の集合体は転写産物群(トランスクリプトーム)として知られています。このデータセットに含まれるmRNAファイルは、生物体内の遺伝子の活性についての洞察を提供します。
https://en.wikipedia.org/wiki/Messenger_RNA
mrna-genbank.fa
このファイルには、GenBankからのショウジョウバエに関連するすべてのmRNA配列が含まれています。
http://www.ncbi.nlm.nih.gov/genbank/
mrna-refseq.fa
このファイルには、RefSeqからのショウジョウバエに関連するすべてのmRNA配列が含まれています。
http://www.ncbi.nlm.nih.gov/refseq/
遺伝子予測
遺伝子は、ゲノム上のDNAの断片であり、mRNAを介して生物体内でタンパク質を生成するために使用されます。DNAのどの部分がコード領域(遺伝子)であり、どの部分が非コード領域であるかを知ることは難しく、いくつかの異なる予測システムが存在します。このデータセットには、ショウジョウバエゲノムに適用されたいくつかの異なる遺伝子予測システムが含まれています。
https://en.wikipedia.org/wiki/Gene_prediction
genes-augustus.csv
AUGUSTUSは、隠れマルコフモデルを使用して遺伝子をab initio(無情報)で予測するソフトウェアです。
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC441517/
genes-genscan.csv
GENSCANは、遺伝子を予測する古いab initioソフトウェアです。
http://genes.mit.edu/GENSCANinfo.html
genes-ensembl.csv
ensembl-gtp.csv
ensembl-pep.csv
ensembl-source.csv
ensembl-to-gene-name.csv
Ensemblは、彼らのソフトウェアGenebuildによって生成された遺伝子アノテーションを提供します。このプロセスは、自動アノテーションと手動による検証を組み合わせています。
http://uswest.ensembl.org/info/genome/genebuild/genome_annotation.html
これらに関するいくつかの補足ファイルも含まれており、各予測遺伝子に対する予測されたタンパク質ペプチド配列が含まれています。
genes-refseq.csv
genes-xeno-refseq.csv
refseq-link.csv
refseq-summary.csv
このデータセットには、2つのRefSeq遺伝子予測が含まれています。最初のものは、ショウジョウバエゲノムからの情報のみに基づいています。2番目の(genes-xeno-refseq.csv)は、他の生物の遺伝子を基にしてショウジョウバエの遺伝子を予測しています。
RefSeqのRNAは、blatを使用してショ
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.