IMDB評分排名演算法

2021-06-20 12:37:01 字數 510 閱讀 5399

由於影片資料的更新和所得評分的不斷變化,top250和bottom100必定是份動態的名單,但大部分出色(或者說是受大眾歡迎的)影片的位置會相對不變,於是這份top榜單也就有了窺視大眾電影口味的意義。評選最佳250部電影時只考慮正式的投票者的投票結果。分值系統採用10分制,最低為awful(令人厭惡)的1分,最高為excellent(出類拔萃)的10分。值得注意的是,雖然很多影片在資料系統中得分很高,但由於未能達到top所要求的最低1250張的投票數而無法參加排行。因此,很多曲高和寡(至少在美國)的優秀影片未能列入其中。儘管如此,這份名單對選看影片仍具有重要的參考價值。

這裡就有乙個問題:熱門電影與冷門電影的平均得分,是否真的可比?舉例來說,一部好萊塢大片有10000個觀眾投票,一部小成本的文藝片只有100個觀眾投票。這兩者的投票結果,怎麼比較?如何才能公平地反映出一部電影真正的質量?

乙個合理的思路是,如果要比較兩部電影的好壞,至少應該請同樣多的觀眾**和評分。既然文藝片的觀眾人數偏少,那麼應該設法為它增加一些觀眾。在排名頁面的底部,imdb給出了它的計算方法。

IMDB影評分析實驗

資料集資源 該資料集中包含了5萬條影評 包括正面評價和負面評價 利用這5萬條影評進行資料分析。資料格式 5萬條影評分別處於5萬個txt檔案中 工作步驟如下 3 將處理後的文字進行特徵提取並向量化 4 進 感的分類 coding utf 8 time 2019 9 1016 11 author sup...

ElasticSearch 評分排序

近期有乙個需求,需要對優惠券可用商品列表加個排序,只針對面值類的券不包括折扣券。需求是這樣的,假設有一張面值券 50 塊錢,可用商品列表 a 100 b 40 c 10,當使用者查詢當前券可用商品列表的時候優先將卡券可以直接抵扣且不需要使用者在額外支付的商品排在前面。c 10 b 40 a 100 ...

海量使用者積分排名演算法

使用者 使用者擁有積分,積分可能會在使用過程中隨時更新,設計一種演算法,在使用者登入時顯示其當前基本排名,積分為非負整數,且小於100萬。海量使用者積分排名演算法 1.利用資料庫,建立表結構為使用者id和積分的表,用sql查詢得到排名。優點是簡單,利用sql功能,無需複雜查詢邏輯,不引入額外的儲存結...