Select Language

Open Dataset

法比孔ス

法比孔ス

2755.58M
512 hits
0 likes
0 downloads
0 discuss
Earth and Nature,Arts and Entertainment,Internet,Online Communities,Software,Image Data Classification

Data Structure ? 2755.58M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    コンテキスト ファビコンは、ブラウザがタブ、URLバー、またはブックマークでウェブサイトを表すために使用する(通常は小さい)画像ファイルです。たとえば、Kaggleは青い小文字の「k」の画像をファビコンとして使用しています。このデータセットには、人気ウェブサイトの約36万個のファビコンが含まれています。 内容と謝辞 これらのファビコンは2016年7月に収集されました。私はクローラーを作成し、Alexaの上位100万のサイトを巡回し、サイトのルートにある「favicon.ico」を要求しました。200のレスポンスコードが返された場合、結果を `${サイトURL}.ico` として保存しました。TLDを除いて同一のドメイン(たとえば、google.com、google.ca、google.jp...)については、1つのファビコンのみを収集しました。私の収集/クリーニングコードはGitHub [こちら](https://github.com/colinmorris/favicon-scraper) にあります。 クロールした100万のサイトのうち、54万のサイトが200のコードで応答しました。データセットには36万個の画像があり、これは以下を除外した残りです。 - 空のファイル(-14万個) - [`file`](https://en.wikipedia.org/wiki/File_(command)) コマンドによると、非画像ファイル(-4万個)。これらのほとんどはHTML、ASCII、またはUTF-* タイプでした。 - 破損/不正な画像ファイル - つまり、ImageMagickが解析できないほど混乱したもの(-1000個)。 残りのファイルは、サイトから受け取ったままの状態です。これらは主に [ICOファイル](https://en.wikipedia.org/wiki/ICO_(file_format)) で、最も一般的なサイズは16x16、32x32、および48x48です。しかし、より特殊な形式とサイズの長いテールがあります(88x31がファビコンに適したサイズだと思う人が少なくとも1人います)。 ファビコンファイルは6つのzipファイル `full-0.zip, full-1.zip... full-5.zip` に分割されています。(データセット全体を1つのターボールとしてダウンロードしたい場合は、[インターネットアーカイブ](https://archive.org/details/favicons_201708) からダウンロードできます) `favicon_metadata.csv` は、データセット内の各ファビコンに1行ずつ記載されたcsvファイルです。`split_index` は、画像がどのzipファイルに含まれているかを示します。カーネルコンテキストで特定のファビコンを読み込んで操作する例については、[Faviconヘルパー関数](https://www.kaggle.com/colinmorris/favicon-helper-functions) カーネルを参照してください。 前述のように、データセット全体はさまざまなファイル形式と寸法の混在したものです。私は、取り扱いが容易な(特に機械学習アプリケーションで固定寸法が必要な場合)「標準化」されたデータサブセットを作成しました。 **16_16.tar.gz** は、データセット内のすべての16x16ファビコンをPNGに変換したターボールです。29万個の画像が含まれています。ICOはコンテナ形式であり、生データセット内の多くのicoファイルには、異なる解像度の同じファビコンの複数のバージョンが含まれています。他のサイズの画像と一緒にICOファイルにまとめられた16x16ファビコンは、このセットに含まれています。ただし、リサイズは行っていません - ファビコンに「ネイティブ」の16x16バージョンがない場合は、このセットに含まれません。 **16_16_distinct.tar.gz** は上記と同じですが、7万個の重複またはほぼ重複する画像が削除されています。Bloggerの「B」のように数千回繰り返される一般的なファビコンが少数あり、これは使用ケースによっては煩わしい場合があります - たとえば、生成モデルがBloggerのBを吐き出す局所的な最大値に留まってしまう可能性があります。 Alexaの上位100万のリストには「成人向け」のサイトが含まれているため、一部のURLとファビコンは不適切または不快な内容が含まれている場合があります。(256ピクセルで信頼できる露出描写をするのはかなり難しいですが、時々試みられています。) インスピレーション このデータセットは、小規模なディープラーニング実験に特に有用であることを期待しています。写真を16x16に縮小すると、多くが理解不能になりますが、これらのファビコンは生まれつき小さいのです。`16_16` フォルダにはMNISTよりも多くのインスタンスがあり、画像はさらに小さいです!(ただし、MNISTとは異なり、このデータセット内のほとんどの画像はグレースケールではありません。) これが気に入った場合は、最近公開された [Large Logo Dataset](https://data.vision.ee.ethz.ch/cvl/lld/) もチェックしてみてください。彼らは現在、32x32にリサイズされた55万個のファビコンを公開しています。彼らのデータは最近収集されたもので、収集プロセスもより堅牢であるため、彼らのデータセットを選ぶことをおすすめします(ただし、生のファビコンファイルが必要な場合、またはリサイズされていない16x16の画像を使用したい場合は、このデータセットを使用することもできます)。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 512
    • 0
    • 0
    • collect
    • Share