Select Language

Open Dataset

スペル校正器

スペル校正器

6.6M
263 hits
0 likes
0 downloads
0 discuss
Earth and Nature,NLP,Text Data,Linguistics,Languages,Search Engines Classification

Data Structure ? 6.6M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    ピーター・ノービッグの古典的な記事「[スペル訂正器の作り方](http://norvig.com/spell-correct.html)」より > 2007年のある週、2人の友人(ディーンとビル)がそれぞれ独立して、Googleのスペル訂正機能に驚いていると話してきました。[speling]のような検索語を入力すると、Googleは即座に「検索結果:spelling」と返してきます。ディーンとビルは秀でたエンジニアで数学者であると思っていたので、このプロセスがどのように機能するかについて良い直感を持っていると思っていました。しかし彼らはそうではなく、考えてみると、彼らが自分たちの専門分野からはるかに外れたことについて知っているはずがありません。 > 彼らや他の人たちが説明を受けることで恩恵を受けることができると思いました。産業用レベルのスペル訂正器の詳細は非常に複雑です(ここやここで少し読むことができます)。しかし、大陸横断の飛行機の旅の間に、約半ページのコードで、1秒あたり少なくとも10語の処理速度で80~90%の精度を達成する玩具的なスペル訂正器を書き、説明することができると思いました。 [ピーターの基本的なspell.pyと評価コードを含むカーネルが追加されました](https://www.kaggle.com/bittlingmayer/spell-py/code)。この環境で動作するように最小限の修正が加えられています。 # データファイル コードではbig.txtが必要です。これが英単語の確率を学習するためのものです。 これにさらにテキストデータを追加することができますが、最後の小さなPythonコード片は残しておいてください。 # テストファイル 他のファイルは精度をテストするためのものです。ベースラインのコードは、spell - testset1.txtでは270語中75%を正しく訂正し、spell - testset2.txtでは400語中68%を正しく訂正するはずです。 私はさらに広範なテストのために他のファイルも追加しました。[サンプルカーネル](https://www.kaggle.com/bittlingmayer/spell-py)は、デフォルトではbirkbeck.txtを除くすべてのファイルを実行します。以下はその出力です。 spell - testset1.txtのテスト 270語中75%正解(6%不明)、秒速32語 spell - testset2.txtのテスト 400語中68%正解(11%不明)、秒速28語 wikipedia.txtのテスト 2455語中61%正解(24%不明)、秒速21語 aspell.txtのテスト 531語中43%正解(23%不明)、秒速15語 大きなデータセットの実行には数分かかります。birkbeck.txtは数分以上かかります。 他のデータセットを追加したり、これらのデータセットを意味のある方法で分割したりすることができます。たとえば、5文字以下の単語のみ、10文字以上の単語のみ、大文字を含まない単語のデータセットなどです。これにより、異なるタイプの単語に対する変更の影響を理解することができます。 # 言語 現在、データファイルとテストファイルは英語のみを含んでいます。原則として、他の言語にも容易に拡張できます。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 263
    • 0
    • 0
    • collect
    • Share