Open Dataset
Data Structure ?
503K
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
SMS Spam Corpus v.0.1は、SMSスパム研究のために収集されたSMS短信のタグ付きメッセージのセットです。これには、1084と1319のメッセージを含む2つの英語の短いメッセージコレクションがあり、合法またはスパムとしてタグ付けされています。
SMS Spam Collectionは、SMSスパム研究のために収集されたSMSのタグ付きメッセージのセットです。これには、5,574のメッセージからなる英語のSMSメッセージのセットが含まれており、ハム(合法)またはスパムとしてタグ付けされています。
内容
ファイルは1行に1つのメッセージを含んでいます。各行は2つの列で構成されています。v1にはラベル(ハムまたはスパム)が含まれ、v2には生のテキストが含まれています。
このコーパスは、インターネット上の無料または研究用に無料で利用できるソースから収集されています。
-> 425のSMSスパムメッセージのコレクションは、Grumbletextウェブサイトから手動で抽出されました。これは、携帯電話ユーザーがSMSスパムメッセージについて公に主張する英国のフォーラムです。その多くは、受け取ったスパムメッセージ自体を報告していません。主張の中のスパムメッセージのテキストを特定することは非常に困難で時間のかかる作業であり、何百ものウェブページを注意深くスキャンする必要がありました。Grumbletextウェブサイトは:[ウェブリンク]です。
-> NUS SMSコーパス(NSC)からランダムに選ばれた3,375のSMSハムメッセージのサブセットです。これは、シンガポール国立大学のコンピューターサイエンス学科で研究用に収集された約10,000の合法なメッセージのデータセットです。これらのメッセージは主にシンガポール人、特に大学に通う学生からのものです。これらのメッセージは、自分たちの投稿が公開されることを知っているボランティアから収集されました。NUS SMSコーパスは、[ウェブリンク]で入手できます。
-> [ウェブリンク]で入手できるCaroline Tag氏の博士論文から収集された450のSMSハムメッセージのリストです。
-> 最後に、SMS Spam Corpus v.0.1 Bigを組み込みました。これには1,002のSMSハムメッセージと322のスパムメッセージが含まれており、[ウェブリンク]で公開されています。このコーパスは、以下の学術研究で使用されています。
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.