爬蟲綜合大作業

2022-07-19 05:18:10 字數 2895 閱讀 9415

一、爬蟲物件

豆瓣電影裡面喜劇片的排行榜:

二、**如下:

設定了多個user-agent,模擬成真實的瀏覽器去提取內容:

抓取電影的資訊:

#獲取索引頁

def get_index_page(url):

try:

headers =

response = requests.get(url,headers=headers)

response.encoding = 'utf-8'

if response.status_code == 200:

return response.text

return none

except requestexception:

print('獲取索引頁錯誤')

time.sleep(random.random()*3)

return get_index_page(url)

#解析索引頁

def parse_index_page(url):

data_list = get_index_page(url)

dataurl = json.loads(data_list)

detail_list =

if dataurl:

for item in dataurl:

return detail_list

#獲取詳情頁

def get_movie_page(url):

detailurl = parse_index_page(url)

movie =

for i in range(len(detailurl)):

html = detailurl[i]

headers =

time.sleep(random.random()*3)

res = requests.get(url=html,headers=headers)

res.encoding = 'utf-8'

soup=beautifulsoup(res.text,"html.parser")

movie_dict = {}

movie_dict['name'] = soup.find("span", ).text

movie_dict['evaluate'] = soup.find("span", ).text.strip( '' )

movie_dict['score'] = soup.find("strong", ).text.strip()

movie_dict['director'] = soup.find("a", ).text

movie_dict['region'] = soup.find("span", text="製片國家/地區:").nextsibling.strip()

movie_dict['year'] = soup.find("span", ).text.lstrip("(").rstrip(")")

return movie

三、把爬的電影資料儲存起來

部分截圖(一共抓取了600部電影):

四、資料分析

通過此柱形圖可以發現美國地區居於首位,畢竟美國發展得比較快,電影事業崛起。

通過對前三個國家的喜劇片分析,近年來美國拍的喜劇片逐步上公升,法國和日本就平平而過。

推薦:這幾部電影評分比較高,看的人也比較多,喜歡看喜劇電影的不妨找這幾部看看。

爬蟲綜合大作業

作業要求來自 滿天星辰的夜晚,他們相遇了 夏天的時候,她慢慢的接近他,關心他,為他付出一切 秋天的時候,兩個人終於如願的在一起,分享一切快樂的時光但終究是快樂時光短暫,因為杰倫必須出國深造,兩人面臨了要分隔兩地的狀況,分隔兩地的愛情總是難以維繫長久,在冬天他們選擇分手。從前從前 那帶著痛徹心扉的氣味...

爬蟲綜合大作業

通過瀏覽器的檢查元素 要想爬取這些資料,就必須在使用requests庫時設定好請求的頭部 headers 特別是cookie。接下來開始分析 首先是找到網易雲 歌手網頁 在左側我們可以看到歌手的分類,每個分類都對應乙個url的id引數,同一類歌手又通過歌手名字的首字母進行排序,對應url中的init...

爬蟲大作業

1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析,生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6 最後提交爬取的全部資料 爬蟲及資料分析源 impo...