豆瓣電影,電視劇集DM實戰

2021-09-19 09:39:20 字數 1534 閱讀 4570

前段時間和室友鬧劇荒,於是萌生出一種做個私人化推薦系統想法。(使用者就我們這乙個宿舍)而其中電影的資源則是選擇來自有大量電影電視劇集資訊的豆瓣。

目前,電影的資訊已經抓取完畢,共有11159條json格式的資料,內容包括:

期間自己琢磨著一些推薦系統的演算法,但又不想讓這一萬多條空閒著,於是期間跑了乙個簡單的資料分析的指令碼,沒有高大上的演算法,只是做了簡單的統計。好吧,我承認我題目起dm二字確實有標題黨de意思。如果你還是感興趣,歡迎往下看。

目前來說豆瓣的反爬蟲機制算是可以接受。你只需做到以下兩點獲取資訊應該不成問題。

我的爬蟲採用了廣度優先的做法。你在獲取乙個電影頁面的時候,同時會帶有同類或相似影片的連線,將這些當成下乙個訪問點。

在訪問的時候,你可能會遇到超時的問題,這時不要捨棄該url,應對捕獲超時異常後重新將url回到任務佇列的尾部,如果你直接捨棄了這個url,會導致最後的結果有嚴重的資料缺失。比如我在第一次沒考慮到這點,就只爬取到5000多條,少了將近一半。

另外乙個要考慮到的就是,你必須記錄已經訪問過的url,否則你的爬蟲就會一直在死迴圈。

做到以上,應該就沒太大的問題了。

現在我們想看看演員和好片,爛片之間的關係(各選出前5名)。

現在以7分為標準

小於7分的

大於7分的

全部都是日本演員的名稱。這裡的補充說明一下,因為豆瓣並無顯著資訊表明是電視劇集還是電影,所以

這資料在意料之外,比如說為什麼好片沒有某些美國演員的名字,壞片沒有某些演員的名字,都可能是因為資料集中不僅僅是電影資訊,同時混雜了大量的日劇資訊有關。

不過當我把評價標準降低到5分時倒是發生了好玩的事情。

大於5分的

可以說,變化不算特別的大,然後我們再看看小於5分的,前5名演員

呵呵……

然後我們再來看看在5分的情況下,地區與好片,爛片的關係。

先來看好的

這張圖就有些符合我們的預期了,接下來再看看壞的。

我只能說這個更是在意料之中了。就個人感受來說,國產雖然近年有所好轉,不過明顯還得繼續努力……

接下來可以看看型別和影片時長的關係,在每個時間段中,選出前5名做代表。

每個時間段中,選出數量最多的前五名,製成餅狀圖,一目了然。可以發現其實每個時間段中劇情這個類別都是佔了最大份額,平常看片的時候就感覺劇情這個分類莫名其妙,你要我說,我也實在說不出啥這型別片有啥特徵。

在知乎的回答

其實我還做了,像導演和好片爛片的關係,時長和地區的關係等等,這裡礙於篇幅,不一一舉例了,感興趣的可以到我的github上獲取爬蟲和資料分析的指令碼。

github位址

這個專案會記錄我學習機器學習和資料探勘這個過程的一些小作品,關於github上的betameow的介紹可以看這裡,至於本文說的內容在doubanmovie的目錄下。

2020豆瓣電影首頁熱門電影 熱門電視劇集 API

名稱requesturl baseurl 名稱requesturl 最近熱門電影 tags search tags?type movie source index search tags?type movie source index 名稱 requesturl basemovieslistsurl...

推薦的電影和電視劇集

推理偵探類 神探夏洛克 名偵探柯南 火線追兇系列 陸小鳳傳奇系列 死亡筆記 學習類 風雨哈佛路 天才類 決勝21點 怎樣都行 矽谷傳奇 勵志類 少年派的奇幻漂流 阿甘正傳 肖申克的救贖 美麗心靈 數學家 當幸福來敲門 億萬少年的頂級煩惱 純真類 千與千尋 龍貓 軍旅類 火藍刀鋒 愛情類 初戀那件小事...

電視劇集臉譜

電視劇集 臉譜 介紹 導演 張仲偉 長春電影製片廠 代表作品 電影 冰城擒魔 絕殺 劫殺雅典娜 電視劇集 關中金王 編劇 朱昭賓 代表作品 紅燈記 無罪辯護 保密局槍聲 執行製片人 鈴華健 半路夫妻 中年計畫 桃花燦爛 美術 張鴻發 半路夫妻 中年計畫 桃花燦爛 主要演員 邢岷山 代表作 團委書記 ...