Open Dataset
Data Structure ?
2755.58M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
コンテキスト
ファビコンは、ブラウザがタブ、URLバー、またはブックマークでウェブサイトを表すために使用する(通常は小さい)画像ファイルです。たとえば、Kaggleは青い小文字の「k」の画像をファビコンとして使用しています。このデータセットには、人気ウェブサイトの約36万個のファビコンが含まれています。
内容と謝辞
これらのファビコンは2016年7月に収集されました。私はクローラーを作成し、Alexaの上位100万のサイトを巡回し、サイトのルートにある「favicon.ico」を要求しました。200のレスポンスコードが返された場合、結果を `${サイトURL}.ico` として保存しました。TLDを除いて同一のドメイン(たとえば、google.com、google.ca、google.jp...)については、1つのファビコンのみを収集しました。私の収集/クリーニングコードはGitHub [こちら](https://github.com/colinmorris/favicon-scraper) にあります。
クロールした100万のサイトのうち、54万のサイトが200のコードで応答しました。データセットには36万個の画像があり、これは以下を除外した残りです。
- 空のファイル(-14万個)
- [`file`](https://en.wikipedia.org/wiki/File_(command)) コマンドによると、非画像ファイル(-4万個)。これらのほとんどはHTML、ASCII、またはUTF-* タイプでした。
- 破損/不正な画像ファイル - つまり、ImageMagickが解析できないほど混乱したもの(-1000個)。
残りのファイルは、サイトから受け取ったままの状態です。これらは主に [ICOファイル](https://en.wikipedia.org/wiki/ICO_(file_format)) で、最も一般的なサイズは16x16、32x32、および48x48です。しかし、より特殊な形式とサイズの長いテールがあります(88x31がファビコンに適したサイズだと思う人が少なくとも1人います)。
ファビコンファイルは6つのzipファイル `full-0.zip, full-1.zip... full-5.zip` に分割されています。(データセット全体を1つのターボールとしてダウンロードしたい場合は、[インターネットアーカイブ](https://archive.org/details/favicons_201708) からダウンロードできます)
`favicon_metadata.csv` は、データセット内の各ファビコンに1行ずつ記載されたcsvファイルです。`split_index` は、画像がどのzipファイルに含まれているかを示します。カーネルコンテキストで特定のファビコンを読み込んで操作する例については、[Faviconヘルパー関数](https://www.kaggle.com/colinmorris/favicon-helper-functions) カーネルを参照してください。
前述のように、データセット全体はさまざまなファイル形式と寸法の混在したものです。私は、取り扱いが容易な(特に機械学習アプリケーションで固定寸法が必要な場合)「標準化」されたデータサブセットを作成しました。
**16_16.tar.gz** は、データセット内のすべての16x16ファビコンをPNGに変換したターボールです。29万個の画像が含まれています。ICOはコンテナ形式であり、生データセット内の多くのicoファイルには、異なる解像度の同じファビコンの複数のバージョンが含まれています。他のサイズの画像と一緒にICOファイルにまとめられた16x16ファビコンは、このセットに含まれています。ただし、リサイズは行っていません - ファビコンに「ネイティブ」の16x16バージョンがない場合は、このセットに含まれません。
**16_16_distinct.tar.gz** は上記と同じですが、7万個の重複またはほぼ重複する画像が削除されています。Bloggerの「B」のように数千回繰り返される一般的なファビコンが少数あり、これは使用ケースによっては煩わしい場合があります - たとえば、生成モデルがBloggerのBを吐き出す局所的な最大値に留まってしまう可能性があります。
Alexaの上位100万のリストには「成人向け」のサイトが含まれているため、一部のURLとファビコンは不適切または不快な内容が含まれている場合があります。(256ピクセルで信頼できる露出描写をするのはかなり難しいですが、時々試みられています。)
インスピレーション
このデータセットは、小規模なディープラーニング実験に特に有用であることを期待しています。写真を16x16に縮小すると、多くが理解不能になりますが、これらのファビコンは生まれつき小さいのです。`16_16` フォルダにはMNISTよりも多くのインスタンスがあり、画像はさらに小さいです!(ただし、MNISTとは異なり、このデータセット内のほとんどの画像はグレースケールではありません。)
これが気に入った場合は、最近公開された [Large Logo Dataset](https://data.vision.ee.ethz.ch/cvl/lld/) もチェックしてみてください。彼らは現在、32x32にリサイズされた55万個のファビコンを公開しています。彼らのデータは最近収集されたもので、収集プロセスもより堅牢であるため、彼らのデータセットを選ぶことをおすすめします(ただし、生のファビコンファイルが必要な場合、またはリサイズされていない16x16の画像を使用したい場合は、このデータセットを使用することもできます)。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.