基於Spark的電影推薦系統(推薦系統 1)

2021-09-28 19:49:13 字數 1248 閱讀 1745

行業背景:

快速:apache spark以記憶體計算為核心

通用 :一站式解決各個問題,adhoc sql查詢,流計算,資料探勘,圖計算

完整的生態圈

只要掌握spark,就能夠為大多數的企業的大資料應用場景提供明顯的加速

「猜你喜歡」為代表的推薦系統,從吃穿住行等
專案背景介紹:
本專案是乙個基於apache spark 的電影推薦系統,
專案架構:

主要模組:

系統開發的重難點:

資料倉儲的準備 :spark + hive 資料etl  ,zeppelin +hive 資料展示 

資料處理:

實時資料處理 : 1.資料實時性,完整性 、一致性 ,

2.保證應用不會崩潰掉,or 崩掉之後及時啟動起來 並 資料一致性處理

拓展:

1.資料倉儲怎麼理解?兩種東西,其一是ibm微軟資料產品為代表的,其二是hadoop+hive

apache hive™資料倉儲軟體有助於使用sql讀取,寫入和管理駐留在分布式儲存中的大型資料集。

可以將結構投影到已經儲存的資料上。

提供了命令列工具和jdbc驅動程式以將使用者連線到hive。

2.資料來源準備:

data source:movielens open data

/ml-latest.zip

[root@hadoop001 ml-latest]# pwd

/root/data/ml/ml-latest

[root@hadoop001 ml-latest]# ll -h

總用量 1.9g

-rw-r--r--. 1 root root 1.3m 10月 17 13:41 links.txt

-rw-r--r--. 1 root root 2.8m 10月 17 16:06 movies.txt

-rw-r--r--. 1 root root 725m 10月 17 16:07 ratings.txt

-rw-r--r--. 1 root root 38m 10月 17 16:08 tags.txt

[root@hadoop001 ml-latest]#

接下來就是開始coding…

spark電影推薦系統的簡單測試

objectmovie users analyzer rddelse if args.length 1 valsc newsparkcontext newsparkconf setmaster masterurl valusersrdd sc.textfile datapath users.dat ...

推薦系統 電影推薦系統(二)

als是交替最小二乘法的簡稱,是2008年以來,用的比較多的協同過濾演算法。它已經整合到spark的mllib庫中,使用起來比較方便。這裡可以想象一下,每個人的性格愛好可以認為是乙個抽象的模型,每個人的模型都有自己的乙個特點。因此,每個人對於商品的評價都有自己的一套規律,als演算法就是可以通過這些...

推薦系統 電影推薦系統(一)

二 電影推薦思路總結 資料儲存部分 離線推薦部分 實時推薦部分 系統初始化部分 離線推薦部分 實時推薦部分 業務系統部分 使用者電影特徵提取時,必須要有對應的資料,電影表,使用者表,使用者評價表。通過als演算法對評價表進行計算,計算出電影的特徵矩陣。通過電影特徵的矩陣計算得出每個電影最相似的幾個電...