MovieLens推薦系統資料集官方文件 解釋

2021-08-31 16:32:50 字數 1696 閱讀 1586

grouplens research已從movielens**(收集並提供評級資料集。根據集合的大小,在不同的時間段收集資料集。在使用這些資料集之前,請檢視其readme檔案以獲取使用許可證和其他詳細資訊。

幫助我們的研究實驗室:請對movielens資料集進行簡短的調查 

穩定的基準資料集。138,000名使用者對27,000部電影打的2000萬個評級和465,000個標籤。包括標籤基因組資料,在1,100個標籤上有1200萬個相關性分數。 2023年4月發布;更新10月2016以更新links.csv並新增標籤基因組資料。

~readme.html  : 

~ml-20m.zip(大小:190 mb,校驗和)

~readme.html    : 

~ml-latest-small.zip(大小:1 mb)

~readme.html   : 

~ml-latest.zip(大小:265 mb)

穩定的基準資料集。來自1700部電影,1000名使用者的100,000個評分。發布於4/1998。

~readme.txt   :

~ml-100k.zip(大小:5 mb,校驗和)

~解壓縮檔案的索引   :

穩定的基準資料集。 4000部電影的6000名使用者獲得100萬評級。 2023年2月發布。

~readme.txt

~ml-1m.zip(大小:6 mb,校驗和)

穩定的基準資料集。 72,000個使用者對於10,000部電影,進行了1000萬個評級和100,000個標籤。發布於2023年1月1日。

~readme.html

~ml-10m.zip(大小:63 mb,校驗和)

對於於10,000部電影的1,100個標籤池中獲得1100萬個計算標籤 - 電影相關性分數。發布於2023年3月。

還可以考慮使用movielens 20m或最新資料集,這些資料集還包含(更新的)標籤基因組資料。

~readme.html

~tag-genome.zip(大小:41 mb)

其中均包含四個檔案:movies.csv  , links.csv  , ratings.csv  ,tags.csv

movieid:電影id 

title:電影標題 

genres:電影的題材(多種題材用|分割)

movieid:電影在movielens上的id,通過訪問

imdbid:電影在imdb**上的id,通過訪問

***bid:電影在themoviedb上的id,通過訪問 

userid: 使用者id 

movieid: 電影id 

rating: 使用者評分。5分制,0.5 stars - 5 stars,以0.5為間隔

timestamp: unix時間戳,十位,精確到秒

userid: 使用者id 

movieid: 電影id 

tag: 表示使用者在某個時間為某個電影標記的標籤,即分類

timestamp: 同上時間戳

資料探勘 推薦系統

個性化推薦是根據使用者的興趣特點和購買行為,向使用者推薦使用者感興趣的資訊和商品。為什麼要個性化推薦?商品個數和種類快速增長,顧客需要花費大量的時間才能找到自己想買的商品 瀏覽大量無關的資訊和產品,資訊過載問題,使用者難以獲取所需要的資訊 為每個item抽取出一些特徵來表示此item 結構化屬性如身...

推薦系統資料集

movielens dataset 其中movielens 100k和movielens 1m有使用者對電影的打分,電影的title genre imdb鏈結 使用者的gender age occupation zip code。movielens 10m中還有使用者對電影使用的tag資訊。hetr...

推薦系統常用資料集

ps 對原文有所刪減 在這篇部落格中,作者介紹了九個資料集,其中一些是推薦系統中常用到的標準資料集,也有一些是非傳統意義上的資料集 non traditional datasets 作者相信,這些非傳統資料集更接近真實場景的資料。movielens資料集由grouplens研究組在 universi...