Select Language

Open Dataset

ショウジョウバエのメラノサイトゲノムデータを用いて、一般的なショウジョウバエの注釈付きゲノムを探索する

ショウジョウバエのメラノサイトゲノムデータを用いて、一般的なショウジョウバエの注釈付きゲノムを探索する

130M
737 hits
2 likes
1 downloads
0 discuss
Animal,Deep Learning Classification

ショウジョウバエ(Drosophila Melanogaster)、一般的なミバエは、広く利用されているモデル生物です......

Data Structure ? 130M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    ショウジョウバエ(Drosophila Melanogaster)

    ショウジョウバエ(Drosophila Melanogaster)は、一般的なミバエであり、昆虫学の研究で広く使用されているモデル生物です。生物学の研究、特に遺伝学と発生生物学において、最も研究されている生物の一つです。

    科学研究に使用されていないとき、ショウジョウバエ(D. melanogaster)は家庭、レストラン、そして食べ物を提供するあらゆる場所で一般的な害虫となります。これらはミバエ科(Tephritidae)のハエ(果実ハエとしても知られている)と混同しないでください。

    https://en.wikipedia.org/wiki/Drosophila_melanogaster

    ゲノムについて

    このゲノムは2000年に最初に配列決定されました。4組の染色体(2、3、4およびX/Y)を含んでいます。ゲノムの60%以上は機能的な非タンパク質コードDNAのようです。

    ショウジョウバエの染色体

    このゲノムは Flybase で維持され、頻繁に更新されています。このデータセットはUCSCゲノムバイオインフォマティクスのダウンロードページから取得されています。ショウジョウバエゲノムの2014年8月版(dm6、BDGP Release 6 + ISO1 MT)を使用しています。 http://hgdownload.soe.ucsc.edu/downloads.html#fruitfly

    ファイルはKaggleによって、スクリプトでの分析により適した形式に変更されました。主にファイルをCSV形式に変換し、ヘッダー行を追加するとともに、ゲノム自体を2bit形式からFASTA配列ファイルに変換しました。

    バイオインフォマティクス

    ゲノム解析は、これまでバイオインフォマティクスの経験が少ないデータサイエンティストにとっては困難な場合があります。このデータセットの各ファイルについて基本的な説明を提供し、それぞれの生物学的基礎に関するさらなる読み物へのリンクも用意しました。これまで生物学の学習機会が少ない場合、以下のトピックに関する軽い読書(例えばウィキペディア)が、ここで提供されているデータの細かい点を理解するのに役立つかもしれません。 遺伝学ゲノミクス配列決定/ ゲノムアセンブリ)、 染色体DNARNAmRNA/ miRNA)、 遺伝子対立遺伝子エクソンイントロン転写翻訳ペプチドタンパク質遺伝子発現調節突然変異系統学、および 一塩基多型(SNP)

    もちろん、すでに基本的な知識がある場合は、迷わずに取り組んでください!

    バイオインフォマティクスの学習

    ウェブ上にはバイオインフォマティクスを学ぶための素晴らしいリソースがたくさんあります。面白いサイトの一つが Rosalind です。これはバイオインフォマティクスのコーディング課題を提供するプラットフォームです。このデータセットを使ってKaggleスクリプトを使用することで、Rosalindの課題を簡単に解くことができます(困ったときは マイルズの解決策をこちらで確認)。KaggleのDockerイメージには Biopython がセットアップされており、分析に役立つ素晴らしいライブラリです。 こちらのチュートリアルをチェック して、このデータセットに適用したチュートリアルの一部を含むPythonノートブックも作成しました ので参考にしてください。

    このデータセットのファイル




    ショウジョウバエゲノム


    • genome.fa

    アセンブルされたゲノム自体は FASTA形式 でここに提示されています。各染色体は異なるヌクレオチド配列です。RepeatMaskerとTandem Repeats Finder(周期が12以下)による反復配列は小文字で表示され、反復しない配列は大文字で表示されます。



    メタ情報


    ゲノムに関するメタ情報が含まれた追加の3つのファイルがあります。

    • meta-cpg-island-ext-unmasked.csv

    このファイルには、ゲノム内のCpGアイランドに関する記述的な情報が含まれています。

    https://en.wikipedia.org/wiki/CpG_site

    • meta-cytoband.csv

    このファイルは、各染色体上の細胞遺伝学的バンドの位置を記述しています。

    https://en.wikipedia.org/wiki/Cytogenetics

    • meta-simple-repeat.csv

    このファイルは、ゲノム内の単純なタンデム反復配列を記述しています。

    https://en.wikipedia.org/wiki/Repeated_sequence_(DNA)
    https://en.wikipedia.org/wiki/Tandem_repeat



    ショウジョウバエのmRNA配列


    メッセンジャーRNA(mRNA)は、ゲノム情報をタンパク質に変換する細胞プロセスの一部として生成される中間分子です。一部のmRNAはタンパク質に翻訳されることはなく、細胞内で独自の機能的な役割を果たしています。生物のmRNA情報の集合体は転写産物群(トランスクリプトーム)として知られています。このデータセットに含まれるmRNAファイルは、生物体内の遺伝子の活性についての洞察を提供します。

    https://en.wikipedia.org/wiki/Messenger_RNA

    • mrna-genbank.fa

    このファイルには、GenBankからのショウジョウバエに関連するすべてのmRNA配列が含まれています。

    http://www.ncbi.nlm.nih.gov/genbank/

    • mrna-refseq.fa

    このファイルには、RefSeqからのショウジョウバエに関連するすべてのmRNA配列が含まれています。

    http://www.ncbi.nlm.nih.gov/refseq/



    遺伝子予測


    遺伝子は、ゲノム上のDNAの断片であり、mRNAを介して生物体内でタンパク質を生成するために使用されます。DNAのどの部分がコード領域(遺伝子)であり、どの部分が非コード領域であるかを知ることは難しく、いくつかの異なる予測システムが存在します。このデータセットには、ショウジョウバエゲノムに適用されたいくつかの異なる遺伝子予測システムが含まれています。

    https://en.wikipedia.org/wiki/Gene_prediction

    • genes-augustus.csv

    AUGUSTUSは、隠れマルコフモデルを使用して遺伝子をab initio(無情報)で予測するソフトウェアです。
    http://www.ncbi.nlm.nih.gov/pmc/articles/PMC441517/

    • genes-genscan.csv

    GENSCANは、遺伝子を予測する古いab initioソフトウェアです。
    http://genes.mit.edu/GENSCANinfo.html

    • genes-ensembl.csv

    • ensembl-gtp.csv

    • ensembl-pep.csv

    • ensembl-source.csv

    • ensembl-to-gene-name.csv

    Ensemblは、彼らのソフトウェアGenebuildによって生成された遺伝子アノテーションを提供します。このプロセスは、自動アノテーションと手動による検証を組み合わせています。
    http://uswest.ensembl.org/info/genome/genebuild/genome_annotation.html

    これらに関するいくつかの補足ファイルも含まれており、各予測遺伝子に対する予測されたタンパク質ペプチド配列が含まれています。

    • genes-refseq.csv

    • genes-xeno-refseq.csv

    • refseq-link.csv

    • refseq-summary.csv

    このデータセットには、2つのRefSeq遺伝子予測が含まれています。最初のものは、ショウジョウバエゲノムからの情報のみに基づいています。2番目の(genes-xeno-refseq.csv)は、他の生物の遺伝子を基にしてショウジョウバエの遺伝子を予測しています。

    RefSeqのRNAは、blatを使用してショ

    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:13 Go earn points?
    • 737
    • 1
    • 2
    • collect
    • Share