Select Language

Open Dataset

タンパク質の二次構造

タンパク質の二次構造

307.23M
281 hits
0 likes
0 downloads
0 discuss
Earth and Nature,Computer Science,Health,Biology,Healthcare,Nutrition,Multiclass Classification,Neural Networks Classification

Data Structure ? 307.23M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    # はじめに タンパク質の3次元構造がX線結晶学またはNMRを用いて解明されると、その原子の3次元座標に基づいてタンパク質の二次構造を計算することができます。一般に、[DSSP](https://swift.cmbi.umcn.nl/gv/dssp/index.html)は二次構造を計算するために使用されるツールで、タンパク質内の各アミノ酸に以下の二次構造タイプのいずれかを割り当てます(https://swift.cmbi.umcn.nl/gv/dssp/index.html)。 1. C: ループと不規則な要素(DSSPによって出力される空白文字に対応) 1. E: β-ストランド 1. H: α-ヘリックス 1. B: β-ブリッジ 1. G: 3-ヘリックス 1. I: π-ヘリックス 1. T: ターン 1. S: ベンド しかし、X線またはNMRはコストがかかります。理想的には、タンパク質の一次配列に基づいて直接二次構造を予測したいと思われますが、これには長い歴史があります。最近、このトピックに関するレビューが公開されました。[Sixty-five years of the long march in protein secondary structure prediction: the final stretch?](https://www.ncbi.nlm.nih.gov/pubmed/28040746)。 二次構造予測の目的で、前述の8つの状態(Q8)を、(E, B)をEに、(H, G, I)をEに、(C, S, T)をCにマージすることで3つ(Q3)に簡略化するのが一般的です。現在の3状態(Q3)二次構造予測の精度は約~85%で、8状態(Q8)予測の精度は<70%です。正確な数値は使用する特定のテストデータセットによって異なります。 # データセット 主なデータセットには、ペプチド配列とそれに対応する二次構造がリストされています。これは、2018年6月6日に[RSCB PDB](https://www.rcsb.org/)からダウンロードしたhttps://cdn.rcsb.org/etl/kabschSander/ss.txt.gzを表形式に変換したものです。後でこのファイルをダウンロードすると、その中の配列の数はおそらく増えるでしょう。 **列の説明:** 1. **pdb_id**: https://www.rcsb.org/ 上でそのエントリを見つけるために使用されるID 1. **chain_code**: タンパク質が複数のペプチド(チェーン)で構成されている場合、特定のペプチドを見つけるためにチェーンコードが必要です。 1. **seq**: ペプチドの配列 1. **sst8**: 8状態(Q8)二次構造 1. **sst3**: 3状態(Q3)二次構造 1. **len**: ペプチドの長さ 1. **has_nonstd_aa**: ペプチドに非標準アミノ酸(B, O, U, X, またはZ)が含まれているかどうか。 **変換の主要な手順:** * Q3とQ8の両方の二次構造配列がリストされています。 * B, O, U, X, およびZを含むすべての非標準アミノ酸(それらの意味については[こちら](http://www.samformat.info/IUPAC-ambiguity-codes)を参照)は、"`*`"文字でマスクされています。 * タンパク質配列に非標準アミノ酸が含まれているかどうかを示す追加の列(`has_nonstd_aa`)が追加されています。 * 配列同一性が低く解像度が高い配列のサブセットが、訓練用に用意されています。 キュレーションの詳細については、https://github.com/zyxue/pdb-secondary-structure を参照してください。 [PISCES](http://dunbrack.fccc.edu/Guoli/pisces_download.php)によって選別された配列に基づく、より厳格な品質管理が施されたサブセット(9079配列)も提供されています。このデータセットは、モデルの訓練に適していると考えられています。 2018年5月31日に生成された、配列同一性、解像度、R因子のカットオフがそれぞれ25%、2?、0.25の選別サブセットが使用されています。元の選別リストのURLは http://dunbrack.fccc.edu/Guoli/culledpdb_hh/cullpdb_pc25_res2.0_R0.25_d180531_chains9099.gz ですが、これは永久に利用可能とは限りません。このデータセットには、`cullpdb_pc25_res2.0_R0.25_d180531_chains9099.gz` からの、名前が自明な追加の列が含まれています。 PISCESについての詳細は、https://academic.oup.com/bioinformatics/article/19/12/1589/258419 を参照してください。 # 謝辞 ペプチド配列と二次構造は、https://cdn.rcsb.org/etl/kabschSander/ss.txt.gz からダウンロードされています。 選別サブセットは、http://dunbrack.fccc.edu/PISCES.php からダウンロードされています。 # 着想 Kaggleは、アイデアを共有し、データサイエンスの問題を解決するための素晴らしいプラットフォームを提供しています。クリーンなデータセットを共有することで、他の人が重複した作業をするのを防ぎ、また、異なる方法間でより比較可能なベンチマークを提供するための共通のデータセットを提供することができます。 # この(または関連する)問題に対する初期の試み: 1. Baldi, Pierre, S?ren Brunak, Paolo Frasconi, Gianluca Pollastri and Giovanni Soda. “Bidirectional Dynamics for Protein Secondary Structure Prediction.” Sequence Learning (2001). http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.7092&rep=rep1&type=pdf 1. Chen, J. and Chaudhari, N. S.. "Protein Secondary Structure Prediction with bidirectional LSTM networks." Paper presented at the meeting of the Post-Conference Workshop on Computational Intelligence Approaches for the Analysis of Bio-data (CI-BIO), Montreal, Canada, 2005. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.7092&rep=rep1&type=pdf (PDFが見つかりませんでした) 1. Sepp Hochreiter, Martin Heusel, Klaus Obermayer; Fast model-based protein homology detection without alignment, Bioinformatics, Volume 23, Issue 14, 15 July 2007, Pages 1728–1736, https://doi.org/10.1093/bioinformatics/btm247
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 281
    • 0
    • 0
    • collect
    • Share