Select Language

Open Dataset

キエフのソフィア大聖堂の落書き文字形

キエフのソフィア大聖堂の落書き文字形

10.52M
610 hits
0 likes
0 downloads
0 discuss
Earth and Nature,Computer Science,Image Data,Art,History Classification

Data Structure ? 10.52M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    # はじめに キエフの聖ソフィア教会の独特な碑文記念物群は、最古の碑文に属しており、キエフ・ルスの主要な寺院の建設時期を決定するための最も貴重で信頼できる資料となっています。例えば、それらには1018年から1022年にさかのぼる大聖堂の碑文(グラフィティ)が含まれており、これにより1011年の聖ソフィア大聖堂の建立が確実に証明されています。 ![キエフ(ウクライナ)の聖ソフィア大聖堂にある中世のグラフィティのオリジナル画像の例][1] # データセットの説明 [キエフの聖ソフィア大聖堂のグラフィティ集][2]から収集された、これらの彫刻されたグラゴリティ文字とキリル文字(CGCL)の新しい画像データセットが作成され、多項ロジスティック回帰とディープニューラルネットワークによる文字認識と予測のために前処理されました。現時点では、全体のデータセットは7000以上の画像で構成されていますが、ここには34種類の文字(クラス)について2000以上の画像のみが提示されていますが、新しいデータが追加されることで常に拡充されています。 # 過去の研究成果 ## 畳み込みニューラルネットワーク このデータセットは、最近の論文で、キエフ(ウクライナ)の聖ソフィア大聖堂の石壁に彫られた歴史的な文字(11世紀から18世紀)の自動認識に使用されました。これらの彫刻されたグラゴリティ文字とキリル文字(CGCL)の新しい画像データセットが作成され、機械学習手法による認識と予測のために前処理されました。CGCLデータセットとnotMNISTデータセットの説明的データ分析により、彫刻された文字は、次元削減手法、例えばt分布型確率的近傍埋め込み法(tSNE)によっては、手書き文字と比較して彫刻による文字表現が劣るため、ほとんど区別できないことが示されました。多項ロジスティック回帰(MLR)と2次元畳み込みニューラルネットワーク(CNN)のモデルが適用されました。MLRモデルでは、受信者動作特性(ROC)の曲線下面積(AUC)の値が、notMNISTでは0.92以上、CGCLでは0.60以上となりました。CNNモデルでは、高い損失データ拡張の条件下で、notMNISTとCGCLの両方で0.99に近いAUC値が得られました(CGCLはnotMNISTと比較してサイズと品質がはるかに劣っています)。CGCLデータセットは、データサイエンスコミュニティがオープンソース資源として利用できるように公開されました。このデータセットと関連する研究の詳細は、関連する出版物「Open Source Dataset and Machine Learning Techniques for Automatic Recognition of Historical Graffiti」[3]に記載されています。 ## カプセルニューラルネットワーク 他の研究では、カプセルネットワークが、データ拡張なし、無損失データ拡張、損失データ拡張の3つのレジームで両方のデータセットに適用されました。CGCLデータセットの品質がはるかに劣り、サンプル数が極端に少ない(notMNISTデータセットと比較して)にもかかわらず、カプセルネットワークモデルは、以前に使用された畳み込みニューラルネットワーク(CNN)よりもはるかに良い結果を示しました。カプセルネットワークモデルの学習率は、CNNの5から6倍でした。データ拡張なしの場合でも、カプセルネットワークモデルの検証精度(および検証損失)は、CNNよりも高く(低く)なりました。受信者動作特性(ROC)の曲線下面積(AUC)の値も、カプセルネットワークモデルの方がCNNモデルよりも高くなりました:データ拡張なしでは0.88 - 0.93(カプセルネットワーク)と0.50(CNN)、無損失データ拡張では0.91 - 0.95(カプセルネットワーク)と0.51(CNN)、損失データ拡張のみのレジームでは0.91 - 0.93(カプセルネットワーク)と0.9(CNN)という類似の結果が得られました。混同行列も、カプセルネットワークの方がCNNモデルよりもはるかに良く、3つのデータ拡張レジームすべてで、タイプI(偽陽性)とタイプII(偽陰性)の値がはるかに低くなりました。これらの結果は、以前の主張を支持しており、カプセルネットワークはMNIST数字データセットだけでなく、他のnotMNIST文字データセットや、より複雑なCGCL手書きグラフィティ文字データセットでもエラー率を低減できることを示しています。さらに、カプセルネットワークは、この研究のように学習セットのサイズを180枚の画像まで減らすことができ、CGCL手書きグラフィティのような高度に歪んだ不完全な文字に対してもCNNよりも大幅に優れています。この研究の詳細は、関連する出版物「Capsule Deep Neural Network for Recognition of Historical Graffiti Handwriting」[4]に記載されています。 # 謝辞 ヘッダー写真は[Ivan Sedlovskyi][5]によって2014年に撮影され、クリエイティブ・コモンズ 表示 - 継承 4.0 国際ライセンスの下で共有されています。 [キエフの聖ソフィア大聖堂のグラフィティ集][6]の文字のグリフは、ウクライナ国立工科大学「イゴール・シコルスキーキエフ工科大学」の学生と教員によって作成され、CC BY - NC - SA 4.0ライセンスの下でオープンサイエンスデータセットとして使用することができます[ウクライナ国立工科大学「イゴール・シコルスキーキエフ工科大学」情報とコンピュータ工学部コンピュータ工学学科][7]。 このデータを使用した出版物には、以下の2つのデータソースを明記し、以下の出版物を引用することをお願いします。 - [ウクライナ考古文献学・資料学研究所ミハイロ・フルシェフスキー研究所][8]、キエフ、ウクライナ; - [ウクライナ国立工科大学「イゴール・シコルスキーキエフ工科大学」情報とコンピュータ工学部コンピュータ工学学科][9]、キエフ、ウクライナ; そして以下の出版物を引用してください: - Kornienko, V.V.: Korpus Hrafiti Sofii Kyivskoi, XI - pochatok XVIII_st, chastyny I - III (The Collection of Graffiti of St. Sophia of Kyiv, 11th – 17th centuries), Parts I - III, Mykhailo Hrushevsky Institute of Ukrainian Archeography and Source Studies, Kiev (in Ukrainian), (2010 - 2011). - N.Gordienko, P.Gang, Y.Gordienko, W.Zeng, O.Alienin, O.Rokovyi, & S. Stirenko, Open Source Dataset and Machine Learning Techniques for Automatic Recognition of Historical Graffiti. arXiv preprint arXiv:1808.10862 (2018). - N. Gordienko, Yu. Kochura, V.Taran, Peng Gang, Yu.Gordienko, S. Stirenko, Capsule Deep Neural Network for Recognition of Historical Graffiti Handwriting, arXiv preprint arXiv preprint arXiv:1809.06693 (2018). [1]: http://archeos.org.ua/wp-content/uploads/2013/05/%D0%93%D1%80%D0%B0%D1%84%D1%96%D1%82%D1%96.jpg [2]: http://archeos.org.ua/?page_id=2543 [3]: https://arxiv.org/abs/1808.10862 [4]: https://arxiv.org/abs/1809.06693 [5]: https://commons.wikimedia.org/wiki/File:St.Sophia_Cathedral,_Kyiv,_Ukraine_(4).jpg [6]: http://archeos.org.ua/?page_id=2543 [7]: http://comsys.kpi.ua [8]: http://archeos.org.ua [9]: http://comsys.kpi.ua
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 610
    • 0
    • 0
    • collect
    • Share