推薦系統研究中的九大資料集

2021-08-08 09:35:18 字數 2439 閱讀 1883

ps:對原文有所刪減

在這篇部落格中,作者介紹了九個資料集,其中一些是推薦系統中常用到的標準資料集,也有一些是非傳統意義上的資料集(non-traditional datasets),作者相信,這些非傳統資料集更接近真實場景的資料。

movielens資料集由grouplens研究組在 university of minnesota — 明尼蘇達大學(與我們使用資料集無關)中組織的。 movielens是電影評分的集合,有各種大小。 資料集命名為1m,10m和20m,是因為它們包含1,10和20萬個評分。 最大的資料集使用約14萬使用者的資料,並覆蓋27,000部電影。 除了評分之外,movielens資料還包含類似「western」的流派資訊和使用者應用的標籤,如「over the top」和「arnold schwarzenegger」。 這些流派標記和標籤在構建內容向量方面是有用的。內容向量對專案的資訊進行編碼,例如顏色,形狀,流派或真正的任何其他屬性 - 可以是用於基於內容的推薦演算法的任何形式。

movielens的資料在過去20年中已經由大學的學生以及網際網路上的人們進行收集了。 movielens有乙個**,您可以註冊,貢獻自己的評分,並接收由grouplens組實施的幾個推薦者演算法這裡之一的推薦內容。

資料獲取位址

當你讓一批學者寫乙個笑話評分系統,你會得到什麼?jester! jester是由ken goldberg和他在加州大學伯克利分校的小組發展的,包含150個笑話大約600萬的評分。 像movielens一樣,jester評分由網際網路上的使用者提供。 你可以在這裡貢獻你自己的評分。

與我們使用的其他資料集相比,jester有兩個方面是特殊的:它使用-10到10的連續等級,並且在量級上具有最高的評分密度。評分密度的意思是大概「平均每個使用者評價多少個專案」?如果每個使用者都對每個專案進行了評分,那麼評級密度將為100%。 如果沒有人評價過任何東西,那將是0%。 jester的密度約為30%,這意味著乙個使用者平均對30%的笑話進行了評分。 作為比較,movielens 1m的密度為4.6%(其他資料集的密度低於1%)。當然不是那麼簡單。 不是每個使用者都評價相同數量的專案。 相反,一些使用者對許多專案進行評分,大多數使用者只評價一些。 這可以在以下直方圖中看到:

資料獲取位址

book-crossings是由cai-nicolas ziegler根據bookcrossing.com的資料編寫的圖書評分資料集。 它包含90000個使用者的270000本書的110萬個評分。評分範圍從1到10,還包括隱性評分。

book-crossings資料集是最不密集的資料集之一,也是具有明確評分的最不密集的資料集。

資料獲取位址

last.fm的資料聚合aggregated)後,有些資訊(關於特定的歌曲,或某人正在聽**的時間)會丟失。 然而,它是這些樣本中唯一具有使用者的社交網路的資訊的資料集。

資料獲取位址

維基百科是其使用者撰寫的協作百科全書。維基百科除了為最後一刻拼寫學期**的學生提供資訊外,還為每個使用者提供每篇文章的每個編輯的資料轉儲。該資料集已廣泛用於社交網路分析,圖形和資料庫實現測試,以及維基百科使用者行為研究。還可以將使用者採取的編輯操作,作為隱性評分,表明他們因某些原因關心該頁面,並允許我們使用資料集來提出推薦。

由於維基百科不是為了提供推薦者資料集而設計的,所以它確實存在一些挑戰。其中乙個是從頁面中提取有意義的內容向量,但是幸運的是,大多數頁面被很好地分類,為每個頁面提供了一種型別。構建維基百科的內容向量的挑戰與現實世界資料集的推薦面臨的挑戰相似。所以我們認為這是建立一些這樣做的專門知識的好機會。

資料獲取位址

openstreetmap是乙個協作的地圖專案,類似於維基百科。 像維基百科一樣,openstreetmap的資料由使用者提供,整個編輯歷史的完整轉儲也是可用的。 資料集中的物件包括道路,建築物,興趣點,以及您可能在地圖上找到的任何其他內容。 這些物件由鍵值對標識,因此可以從中建立乙個基本的內容向量。 然而,鍵值對是自由的,所以選擇正確的設定是乙個挑戰。 一些鍵值對由編輯軟體(例如「highway =住宅」)進行標準化和相同的使用,但通常它們可以是使用者決定進入的任何內容 - 例如「fixme !! = exact location unknown」。

歷史編輯資料

我們目前通過檢視所有匯入的庫並呼叫函式從每個python檔案中提取內容向量。 將來我們計畫將庫和函式本身作為建議的專案。

各種資料集在其關鍵指標方面都有所不同。 下表列出了每個資料集的這些度量標準的摘要:

我們選擇的資料集涵蓋廣泛的密度、使用者和專案數量以及評分型別。 此外,它們提供了關於專案和使用者的各種資訊,從而允許我們探索從資料集中提取內容向量的不同方法。

推薦系統2 大資料應用

首先普及一下資料量單位,然後再來看bat大資料應用 位元組 byte 8個二進位制位為乙個位元組 b 最常用的單位.1kb kilobyte 千位元組 1024b,1mb megabyte 兆位元組 簡稱 兆 1024kb,1gb gigabyte 吉位元組 又稱 千兆 1024mb,1tb tri...

大資料中的錯誤集

虛擬機器時間不同步 yum配置不通 vi etc resolv.conf 更改dns hadoop hadoop的根目錄下的logs資料夾下的以.log結尾的檔案 檔案組成 hadoop 使用者名稱 啟動節點 主機名.log 找到掛掉的節點名稱和對應主機,開啟日誌找錯 namenode消失 檢視日誌...

大資料實時推薦系統的思考

昨晚思考了實時數倉的問題,對下列案例進行了如下思考.這個肯定不是實時推薦。那麼在拼多多中買了東西,馬上在小公尺瀏覽器中有京東的推薦,這個是不是實時?是實時推薦,但是不是大資料實時推薦。嚴格來講,談不上推薦。因為這種只是根據你買的東西a,推薦了類似商品名稱的商品給你。大資料實時推薦指的是,你買了a,我...