Select Language

Open Dataset

アフリカ言語の停止語リスト

アフリカ言語の停止語リスト

0.2M
564 hits
0 likes
0 downloads
0 discuss
Linguistics,Languages,Africa Classification

Data Structure ? 0.2M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    文脈: 英語の「the」や「and」のようないくつかの単語は、スピーチや文章で頻繁に使われます。ほとんどの自然言語処理アプリケーションでは、これらの頻出単語を削除したいと思うでしょう。これは通常、手作業で作成された「ストップワード」のリストを使用して行われます。 内容: このプロジェクトでは、アフリカストーリーブックプロジェクトが提供する原文をコーパスとして使用し、ASPが対象とする60以上の言語について、このコーパスから頻度リストとストップワードのリストを抽出するためのいくつかのツールを提供します。 このデータセットに含まれる言語は以下の通りです。 * アフリカーンス語:ストップワードリストと単語頻度 * ハウサ語:ストップワードリストと単語頻度 * ルグバラティ語:単語頻度のみ * ルグバラティ語(公用語):単語頻度のみ * ソマリ語:ストップワードリストと単語頻度 * セソト語:ストップワードリストと単語頻度 * スワヒリ語:ストップワードリストと単語頻度 * ヨルバ語:ストップワードリストと単語頻度 * ズールー語:ストップワードリストと単語頻度 ファイルは言語のISOコードを使用して命名されています。各言語について、code.txtはストップワードのリストで、code_frequency_list.txtは単語頻度情報です。ISOコードとそれに関連付けられた言語のリストは、ISO_codes.csvに記載されています。 謝辞: このプロジェクトは、自由に利用できるオープンライセンスのASPソースプロジェクトをコーパスとして使用することで、アフリカ言語のストップワードリストの言語カバレッジの空白を埋めようとしています。 CC - BYとApache 2.0のデュアルライセンスです。Liam Dohertyによって作成されました。これらのファイルを生成するために使用された詳細情報とスクリプトは[こちら](https://github.com/dohliam/more - stoplists)で入手できます。 インスピレーション: このデータセットは主に自然言語処理分析の際に役立ちますが、データの中に面白い洞察があるかもしれません。 * 言語を超えてストップワードはどのような特性を共有していますか?新しい言語があった場合、そのストップワードは何になるか予測できますか? * 言語を超えて共有されているストップワードは何ですか? * 多くの場合、関連する言語には同じ意味で似たスペルの単語があります。これらの単語のペアを自動的に特定できますか? あなたが気に入るかもしれないもの: * [19の言語(主にヨーロッパと南アジアの言語)のストップワードリスト](https://www.kaggle.com/rtatman/stopword - lists - for - 19 - languages)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 564
    • 0
    • 0
    • collect
    • Share