Open Dataset
Data Structure ?
2.54M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
コンテキスト
このデータセットには、私たちが日常的に使用するウェブサイトの基本情報の一部が含まれています。
この情報をスクレイピングする際に、私はRプログラミング、システム速度、メモリ使用量などについて多くを学び、ウェブスクレイピングにおける独自の領域を開拓しました。私のシステム(4GB RAM)でこのデータをスクレイピングするのに約4 - 5時間かかり、このプロジェクトを通じてアイデアを実現するのに約4 - 5日かかりました。
内容
このデータセットには、191の国それぞれから上位50位のサイトとそれらのトラフィック(グローバル)ランクが含まれています。ここで、country_rankはそのサイトの国内でのトラフィックランクを表し、traffic_rankはそのサイトのグローバルなトラフィックランクを表します。
ほとんどの列の意味はその名前から推測できるため、このデータセットを理解するのはかなり簡単です。ただし、いくつかの混乱する点があり、ここで説明したいと思います。
1) ほとんどの数値は文字形式になっているため、空白が含まれていることがあり、それをクリーニングする必要があるかもしれません。
2) 同じウェブサイトが複数の行に登場することがあります。例えば、Yahoo.comはこのデータセット内の179行に登場しています。これは、各国での異なる国内ランクによるものです。
3) このデータセットに提供されている情報は、2017年5月25日時点の191の国の上位50のウェブサイトに関するものであり、ランキングの動的な構造のため、将来的に変更される可能性があります。
4) 実際には、このデータセットには9550行(50 * 191行)ではなく9540行しか含まれていません。これは、10のウェブサイトに関する情報が入手できなかったためです。
PS: もしさらに質問があれば、ここにコメントしてください。私はその回答を上記のリストに追加します。
謝辞
他の人の助けがなければ、これを行うことはできませんでした。私はこの情報を、公開されている(誰でもアクセスできる)ウェブサイトからスクレイピングしました。
1) http://data.danetsoft.com/
2) http://www.alexa.com/topsites
**これらのサイトには大変感謝しています**。これらのサイトの所有者に、私が今日このデータセットに含めた情報を提供してくれたことに心から感謝します。
インスピレーション
私は、このデータセットを探索し、視覚化することで、各国のウェブサイトの属性の傾向を見つける余地がたくさんあると感じています。また、ウェブサイトの他の属性を独立変数として、トラフィック(グローバル)ランクを予測することも試せます。いずれにせよ、このデータセットはあなたの地域の人気サイトを見つけるのに役立ちます。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.