前出塞資料探勘的一些必須了解的概念

2021-07-10 13:54:42 字數 1007 閱讀 9513

前出塞

現在使用了資料探勘,下面跟大家一起討論下資料探勘的概念。從龐雜的資料背後挖掘、分析使用者的行為習慣和喜好,找出更符合使用者「口味」的產品和服務,並結合使用者需求有針對性地調整和優化自身,就是大資料的價值。 

對於大資料在商業上的用途,這句話說得很清楚。前半句是重點,了解使用者的行為習慣和愛好,這就是大資料的核心價值。

1. 元資料(metadata)的概念

簡單說,元資料是對資料本身進行描述的資料,或者說,它不是物件本身,它只描述物件的屬性。

比如,一幅畫本身,是資料。而這幅畫的作者、完成時間、尺寸、**、型別等等,就是它的元資料。

再比如,***你結婚,找了個男的讓你相親。你並不認識他,但你媽告訴你他的年齡、身高、體重、體貌特徵、家庭背景、收入、愛好特長,你心裡也就對他有了印象。即便你還不認識他。

元資料的價值,第一是能夠從側面描述物件,第二點就是可以結構化、資訊化。

什麼意思呢?

比如,我們要判斷一幅畫的價值,除了專家直接通過畫的藝術性來評價,還可以通過元資料來判斷。

這幅畫是名家的還是二流畫家的?這幅畫是作者在他創作鼎盛時期的作品,還是在年輕時的作品?這幅畫是作者擅長的型別還是他不熟悉的?

用這些描述的資訊,我們居然就能把這幅畫的價值算得**不離十。雖然肯定會存在誤差,但同樣是科學合理的方法。

那用元資料而非資料本身描述物件的意義何在?

這就是在大資料上產生的價值了:對於非結構化的、非量化的物件本身,結構化的元資料可以用以快速計算和判斷。

比如,你媽拿了 100 個單身男的資料,你要是乙個乙個去仔細翻閱,那幾天都翻不完。但你告訴你媽,高學歷的可能意味著素質很高,高收入的可能意味著能力很強,所以先把低學歷低收入的篩掉,剩下的再依據身高體重年齡這些資訊排序,那效率就高得多了。

注意,這樣的方法仍然會有失誤的,說不定真愛就在被篩掉的人裡。但這樣的概率微乎其微。

相親裡似乎還不太明顯,但大資料在真正產品應用中,產生的效果就天翻地覆了。(待續。。。)

必須了解的一些IT知識點

有些知識感覺明白卻說不明白,博主把它定義為似懂非懂 趁著假期,趕緊掃盲!矽 半導體 矽谷 區域網 廣域網 網際網路 域域網 門戶 防火牆 頻寬 摩爾定律 安迪比爾定律 反摩爾定律,風險投資 天使投資 時間戳。矽 是一種化學元素,符號是si,有無定形矽和晶體矽兩種同素異形體,在地殼中,是第二豐富的元素...

k均值例子 資料探勘 資料探勘比賽的一些經驗心得

資料去噪 無論是資料探勘的比賽也好,還是日常生活中的各種專案也好,我們拿到手的資料集含有雜訊資料是很正常的。雜訊會降低我們的資料質量,從而影響我們模型的效果。因此,對雜訊的處理是必須的,這一點是眾所周知的事情。但是,在去噪的過程中我們也要注意以下問題。在我們這些天做的乙個比賽上,乙個隊友,拿著沒有好...

Python你必須了解的一些點 靜態方法 類方法

類方法首先和類屬性一樣,類方法也可以進行更細緻的劃分,具體可分為類方法 例項方法和靜態方法。和類屬性的分類不同,對於初學者來說,區分這 3 種類方法是非常簡單的,即採用 classmethod修飾的方法為類方法 採用 staticmethod修飾的方法為靜態方法 不用任何修改的方法為例項方法。靜態方...