Open Dataset
Data Structure ?
10.14M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
免責事項
これは私のデータセットで、コミュニティにとって楽しめるものになると思ったものです。これは次世代シーケンシングとトランスクリプトミクスに関するものです。私はいくつかの公開されている生データセットを使用しましたが、このデータセットを得るための処理は大規模です。これは私のkaggleへの最初の貢献ですので、優しくしてください。そして、この体験をどのように改善すればよいか教えてください。NGS機器は世界最大のデータ生産者です。ならば、kaggleにも(もっと?)データを追加してみましょう。酵母のトランスクリプトミクスの洞察
背景
酵母(この場合は*サッカロマイセス・セレビシエ*)は、ビール、ワイン、パンの生産や、複雑な医薬品の製造など、数多くのバイオテクノロジー分野で使用されています。酵母は真核生物です(つまり、かなり複雑な生物です)。すべての生物はDNAに情報を蓄えていますが、細胞内の活動は特定のタンパク質によって行われます。DNAからタンパク質への経路(データから行動へ)は単純です。DNA上の特定の領域がmRNAに転写され、それがタンパク質に翻訳されます。一般的な考え方では、翻訳ステップは線形で、mRNAが多ければタンパク質も多くなるとされています。細胞は自身が作るmRNAの量によってタンパク質の量を積極的に調節します。各遺伝子の発現は、細胞が置かれている状態(飢餓、ストレスなど)に依存します。 生物学の最新の方法では、現在細胞内に存在するすべてのmRNAを調べることができます。この過程が線形であると仮定すると、細胞に特定のmRNAが多く存在すれば、より多くのタンパク質を得ることができます。そのため、mRNAは細胞内で実際に起こっていることの優れたマーカーとなります。 mRNAは脆弱であることを考慮することが重要です。mRNAは必要なときにのみ積極的に補充されます。mRNAとタンパク質の両方を細胞が作るのはコストがかかります。 酵母は約6000個の遺伝子しか持たないため、この研究に適したモデル生物です。また、酵母は単細胞であり、より均質で、高度な機能(スプライス接合部など)が少ないです。 (これらのすべては大きく簡略化されています。もっと詳細を知りたい場合は教えてください)データ
ファイル
以下のファイルが提供されています。 **SC_expression.csv** 利用可能な条件下での各遺伝子の発現値 **labels_CC.csv** 個々の遺伝子のラベル、その状態、および既知の細胞内局在(下記参照) これを小さなコンペティションとして楽しめるかもしれません。他のラベルファイルをアップロードする前に、このデータセットの反応を見てみます。 表示方法についてのフィードバックや、他に共有して欲しいことがあれば教えてください。背景
私は様々な公開されている生データセットから92個のサンプルを使用し、最新のRNAシーケンシングパイプラインで解析しました。 様々な条件(元の名前は隠しています)をカバーしています。これらの条件には、ストレス条件、温度、重金属、培地の変更、および特定の遺伝子の欠失が含まれています。もともとは150セットありましたが、92セットが十分な品質でした。評価は遺伝子レベルで行われました。各遺伝子は独自の行を持ち、サンプルは列になっています(一部のサンプルは複数の列にわたって繰り返されています)。発現レベルはTPM(100万あたりの転写物)で正規化されており、これは標準的な正規化手順です。生のカウントは整数ですが、正規化後は浮動小数点数になります。分析とラベル
遺伝子
個々の遺伝子の機能は議論の的となっています。明らかに、生きた細胞は複雑です。細胞の内部メカニズムは目に見えません。遺伝子の機能は、通常、遺伝子を除去して細胞の挙動をテストすることで間接的に推測されます。これは時間がかかり、精度もあまり高くありません。データセットに見られるように、単細胞酵母でさえ完全に理解するにはまだ多くのことが残されています。 提供されているデータセットは、遺伝子の機能分類に別のアプローチを可能にします。データセットに含まれるラベルファイルは、遺伝子を特定のラベルに対応付けています。この分類は、公式の遺伝子オントロジー協会の分類に基づいています。私は命名法を簡略化しました。遺伝子の機能は通常、階層構造で表されます。[細胞内 --> 細胞質 --> 複合体Aに関連する ... ] 私は高レベルの関連付けのみを残し、GO用語の代わりに読みやすい用語を使用しています。興味があれば拡充します。ラベル
CCラベルは細胞成分に関連しています。 遺伝子が細胞内のどこに存在するかを示します。見つかった関連付けの詳細を記載しています。「細胞成分」という用語は、例えば「未知の位置」と同義と見なすべきです。CCは遺伝子に付ける最も簡単なラベルです。最も簡単に研究できるラベルです。しかし、まだ多くの遺伝子にラベルが付いていません。 MFラベルは分子機能に関連しています。遺伝子が何をしているかを示します。[近日公開] BPラベルは生物学的プロセスに関連しています。遺伝子がどのように関与しているかを示します。[近日公開] ここでの核心的な関心は、データをモデル化することで遺伝子の分類を改善できるかどうかです。一般的な考え方では、同じ条件下で発現する遺伝子は機能的な関係があるとされています。 この分野には多くの可能な応用がありますが、その多くは、私たちが観察する複雑なシステムに関する現在の知識水準に制限されています。生物学をデータサイエンスの領域に持ち込むことは、現在進行中の取り組みです。データに対する洞察を深めることは、大いに役立つかもしれません。注意
このデータセットは実際のものであり、そのためノイズが含まれています。私が最新の技術を使用しているにもかかわらず、ラベルは不完全です。これが現状での知識量です。 SPELL(Serial Pattern of Expression Levels Locator)などのソフトウェアでは、すでに発現レベルを分類に利用する試みが行われています。謝辞
私がこのデータセットの所有者だと思います。これは私の別のプロジェクトの副産物です。これを公開したい人がいれば、私に連絡してください。インスピレーション
遺伝的メカニズムを解明することは複雑ですが、やりがいのある作業です。ヒトと酵母は多くの点で非常に似ています。そのため、酵母を食料や医薬品に利用するだけでなく、最終的には酵母から得た知識を病気の研究に利用することもできるかもしれません。 もう一度言いますが、どんなフィードバックも大歓迎です。 楽しんでください。 CE
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.