大資料分析複習筆記

2022-06-09 15:54:30 字數 2082 閱讀 2873

資料探勘

有效性、可用性、出乎意料、可理解性

假設有圖:

其鄰接矩陣 m為:

帶入公式迭代,結果為:

最終,rm=1

而 ry=ra=0 。這從漫步者的角度很好理解,在經過一段時間之後,漫步者到達了 m 節點,然而 m 節點只有指向自己的鏈結,然後就只能一直停留在 m,所以最後的概率一定是1, 而其他兩個節點的概率就變成了0 。

解決方案

隨機傳送 random teleports

google解決這個問題的辦法是:到達某個節點後 * 有 β

的概率隨機找乙個鏈結過去 * 剩下 1−β 的概率跳到乙個隨機的頁面 * 一般 β 的值在 0.8 到 0.9

之間這樣就使得漫步者在到達m節點之後有一定的概率跳出去!

假設有圖:

其鄰接矩陣為:

漫步者到達m之後發現是死胡同,無路可走了,然而他也不會在m停留,所以最後出現在三個節點的概率都等於0 。

解決方案

依舊是傳送

當漫步者到達死胡同時,傳送的概率變為 1.0 ,隨機傳送到任意頁面,然後圖就變成了如下:

鄰接矩陣變為:

這樣問題就解決了,漫步這每次到m之後,發現去所有頁面的概率都相同且不為零,相當於隨機跳轉到乙個頁面。

計算流程

計算資訊增益

改進

id3演算法使用的是資訊增益,它偏向於分類較多的變數;

c4.5演算法使用的是資訊增益比,它偏向於分類較少的變數。

近朱者赤近墨者黑

開始:選k個核

結束條件:

o(n2)

優點

為使用者獨特口味推薦

推薦新的、不熱門的商品

提供解釋

缺點

相似度度量

cosine

pearson

優點

缺點

稀疏矩陣

第乙個評分者問題

大眾化document stores

key-value stores

wide-column stores

community detection

classification

link prediction

viral marketing

network modeling

依據什麼標準可以稱為community?

資料分析基礎複習

資料分析複習 什麼是資料分析 通過對資料的蒐集 整理 清洗,提取資料的潛在特徵,找到資料的隱藏規律,發現潛在目標及價值。怎麼實現分析目標 借助於一些工具及演算法 資料採集 資料分析 資料視覺化 信用卡盜刷分析 1.分析審視資料 2.特徵工程 畫出直方圖,找出分布有明顯區別的變數,是對分類目標 信用卡...

大資料分析工具

新 指數 清博大資料 新 指數 www.gsdata.cn 是新 大資料第一平台,為運營新 利器 現已開通賬號分鐘級監測服務,打擊粉絲造假賬號,支援使用者自主監測新 資料 定製各類榜單,並提供資料api等各類增值服務。資料視覺化工具 cytoscape 圖表秀 資料觀 微博足跡視覺化 bdp個人版 ...

大資料分析流程

愛資料學院 welcome 一 為什麼要做乙份資料報告 你是乙個工作了一段時間的白領,你覺得現在這份工作不適合你,你下班以後去逛知乎,在上面看到很多人在說大資料代表未來,資料分析師是21世紀最 的十大職業之一 你激動了,你也要成為資料分析師,你利用空餘時間補上了統計知識,學了分析工具,然後發現自己目...