Open Dataset
Data Structure ?
16.77M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
このデータセットは3つのサブデータセットを含んでいます:dataset 1、dataset 3、dataset 4。以下に説明します:
Dataset 1: 410万件の評価
73,421人のユーザーによる100個のジョークの評価値(-10.00から+10.00):1999年4月から2003年5月まで収集
Dataset 1の100個のジョークのテキストはここからダウンロードできます:jester_dataset_1_joke_texts.zip (92KB)
形式:
100個のファイル
各ファイルの名前はinit1.html, ..., init100.htmlです
これらの数字はExcelファイル内のジョークのIDを指します
評価データ:
jester_dataset_1_1.zip: (3.9MB) 36個以上のジョークを評価した24,983人のユーザーのデータ。24983 X 101の行列です。
jester_dataset_1_2.zip: (3.6MB) 36個以上のジョークを評価した23,500人のユーザーのデータ。23500 X 101の行列です。
jester_dataset_1_3.zip: (2.1MB) 15から35個のジョークを評価した24,938人のユーザーのデータ。24,938 X 101の行列です。
形式:
データファイルは.zip形式で、解凍するとExcel (.xls)形式になります
評価値は-10.00から+10.00の実数値です(値「99」は「null」 = 「未評価」を意味します)。
ユーザーごとに1行
最初の列はそのユーザーが評価したジョークの数を示します。次の100列はジョーク01 - 100の評価値を示します。
列{5, 7, 8, 13, 15, 16, 17, 18, 19, 20}のみを含む部分行列は密です。ほとんどのユーザーがこれらのジョークを評価しています(上記の論文での「普遍的クエリ」の議論を参照)。
Dataset 3: 230万件の評価
73,421人のユーザーによる100個のジョークの評価値(-10.00から+10.00):1999年4月から2003年5月まで収集
150個のジョーク(Dataset 1に含まれない50個)と、旧Dataset 2の更新版を含み、合計82,366人のユーザーから115,000件以上の新しい評価が収集されています:2006年11月から2015年3月までのデータ
Dataset 3の150個のジョークのテキスト:jester_dataset_2/3_joke_texts.zip (29KB)
形式:
150行のExcelスプレッドシート
行番号は上記のExcelファイルで参照されるジョークのIDに対応します
最初の100個のジョークとそのIDはDataset 1の100個のジョークと一致します
評価データはディスクに保存してから解凍してください:jester_dataset_3.zip (6MB)
形式:
データは、ユーザーを行、ジョークを列とする54,905 X 151のExcelファイルとして整形されています。最も左の列にはユーザーが評価したジョークの総数が含まれています。このデータセットには合計54905人のユーザーと150個のジョークがあります。
これらのジョークのうち22個は評価が少なく、2009年5月までに時代遅れと見なされて削除されました(例:ビル・クリントンに関するジョーク)。それらのIDは、{1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 14, 20, 27, 31, 43, 51, 52, 61, 73, 80, 100, 116}です。
各評価は-10.00から+10.00の範囲で、99はnull評価(ユーザーがそのジョークを評価していない)を意味します。
評価値は-10.00から+10.00の実数値です。2009年5月までに、ジョーク{7, 8, 13, 15, 16, 17, 18, 19}は「ゲージセット」(Eigentaste論文で議論されている)であり、ジョーク{1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 14, 20, 27, 31, 43, 51, 52, 61, 73, 80, 100, 116}は削除されました(つまり、表示または評価されることはありません)。
Dataset 4
合計7,699人のユーザーから100,000件以上の新しい評価:2015年4月から2019年11月まで収集したデータ
ジョークのテキスト:jester_dataset_4_joke_texts.zip (30KB)
形式:
8つの新しいジョーク151 - 158を含みます。
158行のExcelシート。
行番号は以下のExcelファイルで参照されるジョークのIDに対応します
最初の150個のジョークとそのIDは以前のデータセットのジョークと一致します
評価データ:ディスクに保存してから解凍してください:jester_dataset_4.zip (1.4MB)
形式:
データは、ユーザーを行、ジョークを列とする7699 X 159の行列を表すExcelファイルとして整形されています。最も左の列は各ユーザーが評価したジョークの数を表します。このデータセットには合計7699人のユーザーと158個のジョークがあります。
22個のジョークには評価がありません。それらのIDは、{1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 14, 20, 27, 31, 43, 51, 52, 61, 73, 80, 100, 116}です。
このバージョンには8つのジョーク{151 - 158}が追加されました
各評価は-10.00から+10.00の範囲で、99はnull評価(ユーザーがそのジョークを評価していない)を意味します。
評価値は-10.00から+10.00の実数値です。ジョーク{1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 14, 20, 27, 31, 43, 51, 52, 61, 73, 80, 100, 116}は削除されています(つまり、表示または評価されることはありません)。2015年4月までに、8つのジョークが追加されました。
詳細情報については、以下に連絡してください:
Ken Goldberg
goldberg at berkeley dot edu
IEORおよびEECSの教授
UC Berkeley
(510) 643-9565 (電話)
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.