Select Language

Open Dataset

推薦システムと協調フィルタリングの研究に使用されるJesterデータセット

推薦システムと協調フィルタリングの研究に使用されるJesterデータセット

16.77M
1012 hits
0 likes
1 downloads
0 discuss
OCR/Text Detection Classification

このデータセットには3つのサブデータセットが含まれています:データセット1、データセット3、データセット4。以下に説明します:データセット1:410万件の評価値(-10.00から ......

Data Structure ? 16.77M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    このデータセットは3つのサブデータセットを含んでいます:dataset 1、dataset 3、dataset 4。以下に説明します:

    Dataset 1: 410万件の評価

    73,421人のユーザーによる100個のジョークの評価値(-10.00から+10.00):1999年4月から2003年5月まで収集

    Dataset 1の100個のジョークのテキストはここからダウンロードできます:jester_dataset_1_joke_texts.zip (92KB)

    形式:

    1. 100個のファイル

    2. 各ファイルの名前はinit1.html, ..., init100.htmlです

    3. これらの数字はExcelファイル内のジョークのIDを指します

    評価データ:

    • jester_dataset_1_1.zip: (3.9MB) 36個以上のジョークを評価した24,983人のユーザーのデータ。24983 X 101の行列です。

    • jester_dataset_1_2.zip: (3.6MB) 36個以上のジョークを評価した23,500人のユーザーのデータ。23500 X 101の行列です。

    • jester_dataset_1_3.zip: (2.1MB) 15から35個のジョークを評価した24,938人のユーザーのデータ。24,938 X 101の行列です。

    形式:

    1. データファイルは.zip形式で、解凍するとExcel (.xls)形式になります

    2. 評価値は-10.00から+10.00の実数値です(値「99」は「null」 = 「未評価」を意味します)。

    3. ユーザーごとに1行

    4. 最初の列はそのユーザーが評価したジョークの数を示します。次の100列はジョーク01 - 100の評価値を示します。

    5. 列{5, 7, 8, 13, 15, 16, 17, 18, 19, 20}のみを含む部分行列は密です。ほとんどのユーザーがこれらのジョークを評価しています(上記の論文での「普遍的クエリ」の議論を参照)。

    Dataset 3: 230万件の評価

    73,421人のユーザーによる100個のジョークの評価値(-10.00から+10.00):1999年4月から2003年5月まで収集

    150個のジョーク(Dataset 1に含まれない50個)と、旧Dataset 2の更新版を含み、合計82,366人のユーザーから115,000件以上の新しい評価が収集されています:2006年11月から2015年3月までのデータ

    Dataset 3の150個のジョークのテキスト:jester_dataset_2/3_joke_texts.zip (29KB)

    形式:

    1. 150行のExcelスプレッドシート

    2. 行番号は上記のExcelファイルで参照されるジョークのIDに対応します

    3. 最初の100個のジョークとそのIDはDataset 1の100個のジョークと一致します

    評価データはディスクに保存してから解凍してください:jester_dataset_3.zip (6MB)

    形式:

    • データは、ユーザーを行、ジョークを列とする54,905 X 151のExcelファイルとして整形されています。最も左の列にはユーザーが評価したジョークの総数が含まれています。このデータセットには合計54905人のユーザーと150個のジョークがあります。

    • これらのジョークのうち22個は評価が少なく、2009年5月までに時代遅れと見なされて削除されました(例:ビル・クリントンに関するジョーク)。それらのIDは、{1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 14, 20, 27, 31, 43, 51, 52, 61, 73, 80, 100, 116}です。

    • 各評価は-10.00から+10.00の範囲で、99はnull評価(ユーザーがそのジョークを評価していない)を意味します。

    評価値は-10.00から+10.00の実数値です。2009年5月までに、ジョーク{7, 8, 13, 15, 16, 17, 18, 19}は「ゲージセット」(Eigentaste論文で議論されている)であり、ジョーク{1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 14, 20, 27, 31, 43, 51, 52, 61, 73, 80, 100, 116}は削除されました(つまり、表示または評価されることはありません)。

    Dataset 4

    合計7,699人のユーザーから100,000件以上の新しい評価:2015年4月から2019年11月まで収集したデータ

    ジョークのテキスト:jester_dataset_4_joke_texts.zip (30KB)

    形式:

    1. 8つの新しいジョーク151 - 158を含みます。

    2. 158行のExcelシート。

    3. 行番号は以下のExcelファイルで参照されるジョークのIDに対応します

    4. 最初の150個のジョークとそのIDは以前のデータセットのジョークと一致します

    評価データ:ディスクに保存してから解凍してください:jester_dataset_4.zip (1.4MB)

    形式:

    • データは、ユーザーを行、ジョークを列とする7699 X 159の行列を表すExcelファイルとして整形されています。最も左の列は各ユーザーが評価したジョークの数を表します。このデータセットには合計7699人のユーザーと158個のジョークがあります。

    • 22個のジョークには評価がありません。それらのIDは、{1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 14, 20, 27, 31, 43, 51, 52, 61, 73, 80, 100, 116}です。

    • このバージョンには8つのジョーク{151 - 158}が追加されました

    • 各評価は-10.00から+10.00の範囲で、99はnull評価(ユーザーがそのジョークを評価していない)を意味します。

    評価値は-10.00から+10.00の実数値です。ジョーク{1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 14, 20, 27, 31, 43, 51, 52, 61, 73, 80, 100, 116}は削除されています(つまり、表示または評価されることはありません)。2015年4月までに、8つのジョークが追加されました。


    詳細情報については、以下に連絡してください:

    Ken Goldberg
    goldberg at berkeley dot edu
    IEORおよびEECSの教授
    UC Berkeley
    (510) 643-9565 (電話)


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:6 Go earn points?
    • 1012
    • 1
    • 0
    • collect
    • Share