Select Language

Open Dataset

1000大麻ゲノムプロジェクトデータセット

1000大麻ゲノムプロジェクトデータセット

100K
732 hits
0 likes
4 downloads
0 discuss
Agriculture,Biology,Bigquery,Plants Classification

2016年10月、フィロスバイオサイエンス社は、Openを通じて約850株の大麻のゲノムオープンデータセットを公開しました。......

Data Structure ? 100K

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    2016年10月、フィロスバイオサイエンス社はオープンキャンナビスプロジェクトを通じて、約850種の大麻菌株のゲノム公開データセットを公開しました。コーターゲンライフサイエンス社、ミシガン州立大学、NCBI、サンライズメディシナル、カルガリー大学、トロント大学、雲南省農業科学院などが公開している他のゲノミクスデータセットと合わせると、公開されているデータの総量は、ほぼ同数の固有の菌株から採取した1000以上のサンプルに達しています。

    https://medium.com/google-cloud/dna-sequencing-of-1000-cannabis-strains-publicly-available-in-google-bigquery-a33430d63998

    これらのデータは国立バイオテクノロジー情報センターの配列リードアーカイブ(NCBI SRA)から取得され、BWAアライナーとFreeBayes変異検出ツールを使用して処理され、Google Genomics APIでインデックス付けされ、分析のためにBigQueryにエクスポートされました。 データは、gs://gcs-public-data--genomics/cannabisのGoogle Cloud Storageから直接利用できる他、Google Genomics APIを通じてデータセットID 918853309083001239として、また転写体データのみの重複したサブセットをデータセットID 94241232795910911として、さらにBigQueryデータセットbigquery-public-data:genomics_cannabisにも提供されています。

    大麻ゲノムプロジェクトデータセットのすべてのテーブルには、201703のようなサフィックスが付いています。このサフィックスは、以下の説明では[BUILD_DATE]と呼ばれます。このデータセットは、新しいデータがリリースされるたびに頻繁に更新されます。

    大麻ゲノムプロジェクトデータセットには、以下のテーブルが含まれています。

    Sample_infoには、各SRAサンプルから抽出されたフィールドが含まれており、SRAサンプルIDやサンプルの種類に関する他のデータが含まれています。サンプルの種類には、菌株、ライブラリー調製方法、シーケンシング技術などがあります。上流のサンプルデータの例はSRP008673を参照してください。SRP008673は、トロント大学による大麻サティバ亜種パープルクッシュのシーケンシングです。

    MNPR01reference[BUILD_DATE]には、フィロスバイオサイエンス社が作成した大麻サティバ亜種カンナトニックのドラフトアセンブリの参照配列名と長さが含まれています。このテーブルには、コンティグ識別子とその長さが含まれています。

    MNPR01[BUILDDATE]には、MNPR01reference[BUILDDATE]テーブルにアラインされた、すべての含まれるサンプルとタイプ(ゲノム、転写体)の変異コールが含まれています。サンプルはsample_infoテーブルで見つけることができます。MNPR01[BUILDDATE]テーブルは、Google Genomics BigQuery変異スキーマを使用してエクスポートされています。このテーブルは、大麻ゲノムの一般的な分析に役立ちます。

    MNPR01transcriptome[BUILDDATE]は、MNPR01[BUILD_DATE]テーブルに似ていますが、転写体サンプルのサブセットのみが含まれています。このテーブルは、大麻ゲノムの転写遺伝子レベルの分析に役立ちます。

    このカーネルをフォークして、このデータセットを使い始めましょう。

    謝辞

    データセットの出所: http://opencannabisproject.org/
    カテゴリー: ゲノミクス
    利用方法: このデータセットは、データセットの出所が定める以下の条件 - https://www.ncbi.nlm.nih.gov/home/about/policies.shtml - の下で、誰でも公開利用できます。また、Googleからの明示的または黙示的な保証なしに「現状のまま」提供されています。Googleは、このデータセットの使用によって生じる直接的または間接的な損害について、一切の責任を負いません。
    更新頻度:  追加データがGenBankにリリースされるたびに
    BigQueryで表示: https://bigquery.cloud.google.com/dataset/bigquery-public-data:genomics_cannabis
    Google Cloud Storageで表示: gs://gcs-public-data--genomics/cannabis

    バナー写真は UnplashのRick Proctor 提供。


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 732
    • 4
    • 0
    • collect
    • Share