Open Dataset
Data Structure ?
280G
README.md
私たちの知る限り、これは性別と年齢のラベル付きの顔画像のうち、トレーニング用として公開されている最大のデータセットです。私たちは年齢予測と性別予測の両方に対して事前学習済みのモデルを提供しています。
説明
公開されている顔画像データセットは多くの場合中小規模で、数万枚を超えることはめったになく、しかも多くの場合年齢情報が含まれていません。そこで、私たちは有名人の大規模なデータセットを収集することにしました。この目的のために、IMDbウェブサイトに掲載されている最も人気のある10万人の俳優のリストを取得し、(自動的に)彼らのプロフィールから生年月日、名前、性別、そしてその人物に関連するすべての画像をクロールしました。
さらに、Wikipediaの人物ページから同じメタ情報を持つすべてのプロフィール画像をクロールしました。
タイムスタンプ(写真が撮影された日付)のない画像は削除しました。
単一の顔が写っている画像はおそらく俳優を映しており、タイムスタンプと生年月日が正しいと仮定すると、そのような各画像に生物学的(実際の)年齢を割り当てることができました。もちろん、割り当てた年齢情報の正確性を保証することはできません。誤ったタイムスタンプの他に、多くの画像は映画の静止画であり、映画の制作期間は長くなる可能性があります。合計で、IMDbから20,284人の有名人の460,723枚の顔画像と、Wikipediaから62,328枚の画像を取得し、合計で523,051枚になりました。
一部の画像(特にIMDbからのもの)には複数の人物が写っているため、2番目に強い顔検出スコアが閾値を下回る写真のみを使用します。ネットワークがすべての年齢に対して同等の識別能力を持つように、トレーニング用の年齢分布を均等化します。詳細については、論文を参照してください。
使用方法
IMDbとWikipediaの画像の両方について、すべてのメタ情報を含む別々の.matファイルを提供しています。このファイルはMatlabで読み込むことができ、形式は以下の通りです。
dob: 生年月日(Matlabのシリアル日付番号)
photo_taken: 写真が撮影された年
full_path: ファイルへのパス
gender: 女性は0、男性は1、不明の場合はNaN
name: 有名人の名前
face_location: 顔の位置。Matlabで顔を切り抜くには次のコマンドを実行します
img(face_location(2):face_location(4),face_location(1):face_location(3),:))
face_score: 検出器のスコア(数値が高いほど良い)。Infは画像内に顔が見つからなかったことを意味し、face_locationは画像全体を返します
second_face_score: 2番目に高いスコアの顔の検出器スコア。これは、複数の顔が写っている画像を除外するのに役立ちます。2番目の顔が検出されなかった場合は、second_face_scoreはNaNになります。
celeb_names (IMDBのみ): すべての有名人の名前のリスト
celeb_id (IMDBのみ): 有名人の名前のインデックス
人物の年齢は、生年月日と写真が撮影された時期(写真は年の真ん中に撮影されたと仮定します)に基づいて計算することができます。
[age,~]=datevec(datenum(wiki.photo_taken,7,1)-wiki.dob);
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.