Open Dataset

1000大麻ゲノムプロジェクトデータセット

100K

748 hits

0 likes

4 downloads

0 discuss

Agriculture,Biology,Bigquery,Plants Classification

2016年10月、フィロスバイオサイエンス社は、Openを通じて約850株の大麻のゲノムオープンデータセットを公開しました。......

Introduction
Data file
Related papers
Code
Discuss(0)
Instructions

Data Structure ? 100K

*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

README.md

2016年10月、フィロスバイオサイエンス社はオープンキャンナビスプロジェクトを通じて、約850種の大麻菌株のゲノム公開データセットを公開しました。コーターゲンライフサイエンス社、ミシガン州立大学、NCBI、サンライズメディシナル、カルガリー大学、トロント大学、雲南省農業科学院などが公開している他のゲノミクスデータセットと合わせると、公開されているデータの総量は、ほぼ同数の固有の菌株から採取した1000以上のサンプルに達しています。

https://medium.com/google-cloud/dna-sequencing-of-1000-cannabis-strains-publicly-available-in-google-bigquery-a33430d63998

これらのデータは国立バイオテクノロジー情報センターの配列リードアーカイブ（NCBI SRA）から取得され、BWAアライナーとFreeBayes変異検出ツールを使用して処理され、Google Genomics APIでインデックス付けされ、分析のためにBigQueryにエクスポートされました。データは、gs://gcs-public-data--genomics/cannabisのGoogle Cloud Storageから直接利用できる他、Google Genomics APIを通じてデータセットID 918853309083001239として、また転写体データのみの重複したサブセットをデータセットID 94241232795910911として、さらにBigQueryデータセットbigquery-public-data:genomics_cannabisにも提供されています。

大麻ゲノムプロジェクトデータセットのすべてのテーブルには、201703のようなサフィックスが付いています。このサフィックスは、以下の説明では[BUILD_DATE]と呼ばれます。このデータセットは、新しいデータがリリースされるたびに頻繁に更新されます。

大麻ゲノムプロジェクトデータセットには、以下のテーブルが含まれています。

Sample_infoには、各SRAサンプルから抽出されたフィールドが含まれており、SRAサンプルIDやサンプルの種類に関する他のデータが含まれています。サンプルの種類には、菌株、ライブラリー調製方法、シーケンシング技術などがあります。上流のサンプルデータの例はSRP008673を参照してください。SRP008673は、トロント大学による大麻サティバ亜種パープルクッシュのシーケンシングです。

MNPR01reference[BUILD_DATE]には、フィロスバイオサイエンス社が作成した大麻サティバ亜種カンナトニックのドラフトアセンブリの参照配列名と長さが含まれています。このテーブルには、コンティグ識別子とその長さが含まれています。

MNPR01[BUILDDATE]には、MNPR01reference[BUILDDATE]テーブルにアラインされた、すべての含まれるサンプルとタイプ（ゲノム、転写体）の変異コールが含まれています。サンプルはsample_infoテーブルで見つけることができます。MNPR01[BUILDDATE]テーブルは、Google Genomics BigQuery変異スキーマを使用してエクスポートされています。このテーブルは、大麻ゲノムの一般的な分析に役立ちます。

MNPR01transcriptome[BUILDDATE]は、MNPR01[BUILD_DATE]テーブルに似ていますが、転写体サンプルのサブセットのみが含まれています。このテーブルは、大麻ゲノムの転写遺伝子レベルの分析に役立ちます。

このカーネルをフォークして、このデータセットを使い始めましょう。

謝辞

データセットの出所: http://opencannabisproject.org/
カテゴリー: ゲノミクス
利用方法: このデータセットは、データセットの出所が定める以下の条件 - https://www.ncbi.nlm.nih.gov/home/about/policies.shtml - の下で、誰でも公開利用できます。また、Googleからの明示的または黙示的な保証なしに「現状のまま」提供されています。Googleは、このデータセットの使用によって生じる直接的または間接的な損害について、一切の責任を負いません。
更新頻度: 追加データがGenBankにリリースされるたびに
BigQueryで表示: https://bigquery.cloud.google.com/dataset/bigquery-public-data:genomics_cannabis
Google Cloud Storageで表示: gs://gcs-public-data--genomics/cannabis

バナー写真は UnplashのRick Proctor 提供。

Similar Data

411000大麻ゲノムプロジェクトデータセット

×
The dataset is currently being organized and other channels have been prepared for you. Please use them

The dataset is currently being organized and other channels have been prepared for you. Please use them

Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.

No content available at the moment

No content available at the moment

Share your thoughts

Go share your ideas~~

ALL

Welcome to exchange and share

Your sharing can help others better utilize data.

Data usage instructions:

I. Data Source and Display Explanation:

1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.

2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.

3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.

II. Ownership Explanation:

1. All datasets on this site are copyrighted by their original publishers or data providers.

III. Data Reposting Explanation:

1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.

IV. Infringement and Handling Explanation:

1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.

VIP Download(0.24/day)

Download

Points：0 Go earn points？

748

4

0

collect

Share

Select Language

AI Technology Community

Today search ranking

month_search_ranking

Dataset Category

Open Dataset

1000大麻ゲノムプロジェクトデータセット

Data Structure ? 100K

Data Structure ?

*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

README.md

謝辞

Similar Data

The dataset is currently being organized and other channels have been prepared for you. Please use them

The dataset is currently being organized and other channels have been prepared for you. Please use them

ALL

I. Data Source and Display Explanation:

II. Ownership Explanation:

III. Data Reposting Explanation:

IV. Infringement and Handling Explanation: