隨筆 從《芳華》影評到TF IDF演算法

2021-08-14 05:20:57 字數 934 閱讀 4781

前兩天看好多《芳華》的影評說:為什麼好人沒好報?於是感嘆一堆世態炎涼,人性醜陋什麼的。我覺得這問題是:為什麼**空調(對誰都溫暖)往往不被看好。

其中分子是所有人,分母是劉峰給幾個人送過溫暖。也就是說他送溫暖的人越多,分母越大,idf值越低。不過也請注意log,它把這個值影響力給降低了。比如說,他給5個人送過溫暖,再給第6個人送溫暖時,分母變大,idf降低,導致前5個人對他的好感度降低,不對呀?說好的「愛人者人恆愛之,敬人者人恆敬之」,於是我們的價值觀受到了衝擊。不過,與此同時,第6個人對他的好感度也增加了,而且idf公式裡還有乙個log降低了這種影響。

再來看tf的演算法,分子是劉峰送的溫暖,分子來自周圍人所有溫暖之和。

對於林丁丁來說,儘管分子很大,但分母更大,所以tf值並不大;而對於何小萍,分母實在是太小了,即使分子不大,tf值也會很大。所以說女孩過於窮養,分母太小,別人稍微對她好點就以身相許了;過於富養,分母太大,看不到別人的善意,又是公主病。

最終,劉峰在每人心中的分量由下式得出。

心理價值主要源於比較,跟均值(或者基線值)的比較。這也許就是心裡那桿稱吧,誰也不是沒良心的白眼兒狼,只是正常的心理現象。劉峰人生的不順利,也不是乙個簡單的因果關係,其中有好人好報的概率問題,社會環境中的馬太效應,以及他自己在關鍵點的選擇等等,tf/idf只是其中乙個因素。至於電影,仁者見仁,智者見智吧。

從提取網頁關鍵詞到TF IDF

這個標題看上去好像很複雜,其實是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但有乙個非常簡單的經典演算法,卻可以給出令人相當滿意的結果。這就是tf idf演算法,這個概念是由劍橋大學計算機女科學家斯巴克 瓊斯提出,被認為是資訊檢索中最重要的發明。乙個容易想到的思...

從模型到演算法 目錄

出於對資料分析 資料探勘方面的興趣,以及在未來工作上的幫助。本博打算多看一些相關書籍與部落格,總結及翻譯相應的知識點。使得自己對這塊的知識越來越了解,總結的文章初步分為以下章節 第一章,eda 資料探索 第二章,線性回歸與模型診斷 第三章,從線性概率模型到廣義線性模型 第四章,模型中特徵子集的選擇 ...

從分治演算法到 Hadoop MapReduce

要說 hadoop mapreduce 就不得不說分治演算法,而分治演算法其實說白了,就是四個字分而治之。其實就是將乙個複雜的問題分解成多組相同或類似的子問題,對這些子問題再分,然後再分。直到最後的子問題可以簡單得求解。要具體介紹分治演算法,那就不得不說乙個很經典的排序演算法 歸併排序。這裡不說它的...