推薦演算法python資料集 推薦演算法資料集

2021-10-13 02:04:25 字數 4162 閱讀 5480

movies recommendation:

movielens

基本內容:

movielens資料集由grouplens研究組在 university of minnesota — 明尼蘇達大學(與我們使用資料集無關)中組織的。 movielens是電影評分的集合,有各種大小。 資料集命名為1m,10m和20m,是因為它們包含1,10和20萬個評分。 最大的資料集使用約14萬使用者的資料,並覆蓋27,000部電影。 除了評分之外,movielens資料還包含類似「western」的流派資訊和使用者應用的標籤,如「over the top」和「arnold schwarzenegger」。 這些流派標記和標籤在構建內容向量方面是有用的。內容向量對專案的資訊進行編碼,例如顏色,形狀,流派或真正的任何其他屬性 - 可以是用於基於內容的推薦演算法的任何形式。

movielens的資料在過去20年中已經由大學的學生以及網際網路上的人們進行收集了。 movielens有乙個**,您可以註冊,貢獻自己的評分,並接收由grouplens組實施的幾個推薦者演算法這裡之一的推薦內容。

yahoo!

基本內容:

movie, music, and images ratings data sets.

cornell university

基本內容:

movie-review data for use in sentiment-analysis experiments.

netflix prize dataset

基本內容:

movietweetings

基本內容:

jester

基本內容:

當你讓一批學者寫乙個笑話評分系統,你會得到什麼?jester! jester是由ken goldberg和他在加州大學伯克利分校的小組發展的,包含150個笑話大約600萬的評分。 像movielens一樣,jester評分由網際網路上的使用者提供。 你可以在這裡貢獻你自己的評分。

與我們使用的其他資料集相比,jester有兩個方面是特殊的:它使用-10到10的連續等級,並且在量級上具有最高的評分密度。評分密度的意思是大概「平均每個使用者評價多少個專案」?如果每個使用者都對每個專案進行了評分,那麼評級密度將為100%。 如果沒有人評價過任何東西,那將是0%。 jester的密度約為30%,這意味著乙個使用者平均對30%的笑話進行了評分。 作為比較,movielens 1m的密度為4.6%(其他資料集的密度低於1%)。當然不是那麼簡單。 不是每個使用者都評價相同數量的專案。 相反,一些使用者對許多專案進行評分,大多數使用者只評價一些。 這可以在以下直方圖中看到:

評分圖music recommendation**:

last.fm

基本內容:

music recommendation data sets

yahoo!

基本內容:

movie, music, and images ratings data sets

audioscrobbler

基本內容:

music recommendation data sets

amazon

基本內容:

audio cd recommendations.

books recommendation:

institut für informatik, universität freiburg

基本內容:

book ratings data sets

bookcrossing資料集

基本內容:

bookcrossing 資料集包含使用者對圖書的行為資訊,包含 3 個檔案。

- bx-users.csv ,包含使用者的 id 、位置和年齡。

- bx-books.csv ,包含圖書的 isbn 、標題、作者、發表年代、出版社和縮略。

- bx-book-ratings.csv ,包含使用者對圖書的評分資訊。

products data:

amazon product data

基本內容:

-description

this dataset contains product reviews and metadata from amazon, including 143.7 million reviews spanning may 1996 - july 2014.

this dataset includes reviews (ratings, text, helpfulness votes), product metadata (descriptions, category information, price, brand, and image features), and links (also viewed/also bought graphs).

files

**complete review data

please see the per-category files below, and only download these (large!) files if you absolutely need them:

food recommendation:

chicago entree

基本內容:

food ratings data sets

mobile recommendation:

基本內容:

基本內容:

ali_mobile_rec

基本內容:

基本內容:

healthcare recommendation:

nursing home

基本內容:

provider ratings data set

hospital ratings

基本內容:

survey of patients hospital experiences

dating recommendation:

dating website recommendation

基本內容:

www.libimseti.cz - dating website recommendation (collaborative filtering)

scholarly ***** recommendation:

national university of singapore

基本內容:

scholarly ***** recommendation

wikipedia

基本內容:

維基百科是其使用者撰寫的協作百科全書。維基百科除了為最後一刻拼寫學期**的學生提供資訊外,還為每個使用者提供每篇文章的每個編輯的資料轉儲。該資料集已廣泛用於社交網路分析,圖形和資料庫實現測試,以及維基百科使用者行為研究。還可以將使用者採取的編輯操作,作為隱性評分,表明他們因某些原因關心該頁面,並允許我們使用資料集來提出推薦。

由於維基百科不是為了提供推薦者資料集而設計的,所以它確實存在一些挑戰。其中乙個是從頁面中提取有意義的內容向量,但是幸運的是,大多數頁面被很好地分類,為每個頁面提供了一種型別。構建維基百科的內容向量的挑戰與現實世界資料集的推薦面臨的挑戰相似。所以我們認為這是建立一些這樣做的專門知識的好機會。

link_1

others:

openstreetmap

基本內容:

openstreetmap是乙個協作的地圖專案,類似於維基百科。 像維基百科一樣,openstreetmap的資料由使用者提供,整個編輯歷史的完整轉儲也是可用的。 資料集中的物件包括道路,建築物,興趣點,以及您可能在地圖上找到的任何其他內容。 這些物件由鍵值對標識,因此可以從中建立乙個基本的內容向量。 然而,鍵值對是自由的,所以選擇正確的設定是乙個挑戰。 一些鍵值對由編輯軟體(例如「highway =住宅」)進行標準化和相同的使用,但通常它們可以是使用者決定進入的任何內容 - 例如「fixme !! = exact location unknown」。

link_1**

python git repositories

基本內容:

我們目前通過檢視所有匯入的庫並呼叫函式從每個python檔案中提取內容向量。 將來我們計畫將庫和函式本身作為建議的專案。

delicious資料集

基本內容:

delicious資料集中包含132 000 000個標籤和420 000 000條標籤行為記錄。該資料集每行是一條標籤行為記錄,由4部分組成——使用者id、日期、網頁url和標籤,代表了乙個使用者在某一天對某個網頁打上了某個標籤的行為。

reference:

推薦系統資料集

movielens dataset 其中movielens 100k和movielens 1m有使用者對電影的打分,電影的title genre imdb鏈結 使用者的gender age occupation zip code。movielens 10m中還有使用者對電影使用的tag資訊。hetr...

推薦領域資料集

movielens dataset 其中movielens 100k和movielens 1m有使用者對電影的打分,電影的title genre imdb鏈結 使用者的gender age occupation zip code。movielens 10m中還有使用者對電影使用的tag資訊。hetr...

python推薦資料

最近接觸python,以個人感受推薦3個不錯的學習python學習資源 1 這個上面有專門為python定製課程,循序漸進,剛開始接觸python可以花一周時間把上面的題目都做完,對於過不了的題目,可以去論壇看下其他人的討論,對於熟悉python語法 基本模組等的學習有幫助。2 codeforce,...