grouplens research已從movielens**(收集並提供評級資料集。根據集合的大小,在不同的時間段收集資料集。在使用這些資料集之前,請檢視其readme檔案以獲取使用許可證和其他詳細資訊。幫助我們的研究實驗室:請對movielens資料集進行簡短的調查
穩定的基準資料集。138,000名使用者對27,000部電影打的2000萬個評級和465,000個標籤。包括標籤基因組資料,在1,100個標籤上有1200萬個相關性分數。 2023年4月發布;更新10月2016以更新links.csv並新增標籤基因組資料。~readme.html :
~ml-20m.zip(大小:190 mb,校驗和)
~readme.html :~ml-latest-small.zip(大小:1 mb)
~readme.html :
~ml-latest.zip(大小:265 mb)
穩定的基準資料集。來自1700部電影,1000名使用者的100,000個評分。發布於4/1998。~readme.txt :
~ml-100k.zip(大小:5 mb,校驗和)
~解壓縮檔案的索引 :
穩定的基準資料集。 4000部電影的6000名使用者獲得100萬評級。 2023年2月發布。
~readme.txt
~ml-1m.zip(大小:6 mb,校驗和)
穩定的基準資料集。 72,000個使用者對於10,000部電影,進行了1000萬個評級和100,000個標籤。發布於2023年1月1日。
~readme.html
~ml-10m.zip(大小:63 mb,校驗和)
對於於10,000部電影的1,100個標籤池中獲得1100萬個計算標籤 - 電影相關性分數。發布於2023年3月。
還可以考慮使用movielens 20m或最新資料集,這些資料集還包含(更新的)標籤基因組資料。
~readme.html
~tag-genome.zip(大小:41 mb)
其中均包含四個檔案:movies.csv , links.csv , ratings.csv ,tags.csv
movieid:電影idtitle:電影標題
genres:電影的題材(多種題材用|分割)
movieid:電影在movielens上的id,通過訪問imdbid:電影在imdb**上的id,通過訪問
***bid:電影在themoviedb上的id,通過訪問
userid: 使用者idmovieid: 電影id
rating: 使用者評分。5分制,0.5 stars - 5 stars,以0.5為間隔
timestamp: unix時間戳,十位,精確到秒
userid: 使用者idmovieid: 電影id
tag: 表示使用者在某個時間為某個電影標記的標籤,即分類
timestamp: 同上時間戳
資料探勘 推薦系統
個性化推薦是根據使用者的興趣特點和購買行為,向使用者推薦使用者感興趣的資訊和商品。為什麼要個性化推薦?商品個數和種類快速增長,顧客需要花費大量的時間才能找到自己想買的商品 瀏覽大量無關的資訊和產品,資訊過載問題,使用者難以獲取所需要的資訊 為每個item抽取出一些特徵來表示此item 結構化屬性如身...
推薦系統資料集
movielens dataset 其中movielens 100k和movielens 1m有使用者對電影的打分,電影的title genre imdb鏈結 使用者的gender age occupation zip code。movielens 10m中還有使用者對電影使用的tag資訊。hetr...
推薦系統常用資料集
ps 對原文有所刪減 在這篇部落格中,作者介紹了九個資料集,其中一些是推薦系統中常用到的標準資料集,也有一些是非傳統意義上的資料集 non traditional datasets 作者相信,這些非傳統資料集更接近真實場景的資料。movielens資料集由grouplens研究組在 universi...