Open Dataset
Data Structure ?
112.7M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
ストリートビューテキスト(SVT)データセットは、Googleストリートビューから収集されました。このデータ内の画像テキストは、高い変動性を示し、多くの場合解像度が低いです。屋外の路面画像を扱う際に、2つの特徴に注目します。(1)画像テキストは多くの場合、商業看板に由来し、(2)企業名は地理的な商業検索を通じて容易に入手できます。これらの要因により、SVTセットは野外での単語スポッティングに特に適しています。すなわち、ストリートビュー画像が与えられた場合、その目標は近隣の企業の単語を特定することです。このデータセットに関する詳細は、当社の論文「Word Spotting in the Wild」[1]に記載されています。このデータに関する最新のベンチマークについては、当社の論文「End-to-end Scene Text Recognition」[2]を参照してください。
このデータセットには、単語レベルのアノテーションのみが含まれており(文字のバウンディングボックスはない)、以下の用途に使用することができます。
切り抜かれた辞書駆動型の単語認識
全画像の辞書駆動型の単語検出と認識
文字のトレーニングデータが必要な場合は、Chars74K、ICDAR2003、およびICDAR2005のデータセットを検討してください。
メタデータとグラウンドトゥルースデータ
タスク:画像内の辞書に含まれるすべての単語を特定することです。画像には他のテキストもありますが、辞書内の単語のみを検出する必要があります。これは、より一般的なOCR問題とは異なります。辞書:HOLIDAY, INN, EXPRESS, HOTEL, NEW, YORK, CITY, FIFTH, AVENUE, MICHAEL, FINA, CINEMA, CAFE, 45TH, STARBUCKS, BINDER, DAVID, DDS, MANHATTAN, DENTIST, BARNES, NOBLE, BOOKSELLERS, AVE, ART, BROWN, INTERNATIONAL, PEN, SHOP, MORTON, THE, STEAKHOUSE, DISHES, BUILD, BEAR, WORKSHOP, HARVARD, CLUB, CORNELL, PACE, UNIVERSITY, LENSCRAFTERS, SETTE, FOSSIL, STORE, 5TH, JEWEL, INDIA, RESTAURANT, KELLARI, TAVERNA, YACHT
当社は、AmazonのMechanical Turkを使用して、Googleストリートビューから画像を収集し、ラベル付けを行いました。データセットを構築するために、Mechanical Turk上で完了させるいくつかのヒューマンインテリジェンスタスク(HIT)を作成しました。
画像の収集
作業者には固有の都市が割り当てられ、Googleストリートビューからテキストを含む20枚の画像を取得するよう依頼されます。彼らには、以下の指示が与えられました。(1)自分の都市に対して「近くの検索」を実行し、(2)検索結果内の企業を調査し、(3)企業名のテキストを含む画像について、関連するストリートビューを確認することです。単語が見つかった場合、彼らは画像の傾きを最小限に抑えるように構図を調整し、スクリーンショットを保存し、企業名と住所を記録します。
画像のアノテーション
作業者には画像と候補単語のリストが提示され、バウンディングボックスでラベル付けを行います。これは、ICDAR Robust Readingデータセットとは異なり、当社は企業に関連する単語のみをラベル付けします。当社は、Alex Sorokinのアノテーションツールキットを使用して、バウンディングボックスによる画像のアノテーションをサポートしました。各画像について、画像の住所でGoogleマップの「近くの検索」を使用して、地元の企業名のリストを取得しました。各画像について上位20件の企業結果を保存し、通常は50個の固有の単語が得られます。要約すると、SVTデータセットはGoogleストリートビューから収集された画像で構成されており、各画像には、画像が撮影された場所周辺の企業の単語を囲むバウンディングボックスがアノテーションされています。
アノテーションは、ICDAR 2003 Robust Reading Competitionと同様のタグを使用したXML形式で保存されています。
参考文献
Wang Kai、Babenko Boris、Belongie Serge、「End-to-end Scene Text Recognition」、ICCV 2011、スペインのバルセロナ (PDF)。ギャラリー:ICDAR、SVT。
著者への連絡先
Wang Kai EBU3B、4148号室 コンピュータ科学とエンジニアリング学科 カリフォルニア大学サンディエゴ校 ジルマンドライブ9500番地、郵便番号0404 カリフォルニア州ラホヤ、92093 - 0404 メールアドレス:k...@cs.ucsd.edu
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.