爬蟲綜合大作業

一、爬蟲物件

豆瓣電影裡面喜劇片的排行榜：

二、**如下：

設定了多個user-agent，模擬成真實的瀏覽器去提取內容：

抓取電影的資訊：

#獲取索引頁
def get_index_page(url):
try:
headers = 
response = requests.get(url,headers=headers)
response.encoding = 'utf-8'
if response.status_code == 200:
return response.text
return none
except requestexception:
print('獲取索引頁錯誤')
time.sleep(random.random()*3)
return get_index_page(url)
#解析索引頁
def parse_index_page(url):
data_list = get_index_page(url)
dataurl = json.loads(data_list)
detail_list = 
if dataurl:
for item in dataurl:
return detail_list
#獲取詳情頁
def get_movie_page(url):
detailurl = parse_index_page(url)
movie = 
for i in range(len(detailurl)):
html = detailurl[i]
headers = 
time.sleep(random.random()*3)
res = requests.get(url=html,headers=headers)
res.encoding = 'utf-8'
soup=beautifulsoup(res.text,"html.parser")
movie_dict = {}
movie_dict['name'] = soup.find("span", ).text
movie_dict['evaluate'] = soup.find("span", ).text.strip( '' )
movie_dict['score'] = soup.find("strong", ).text.strip()
movie_dict['director'] = soup.find("a", ).text
movie_dict['region'] = soup.find("span", text="製片國家/地區:").nextsibling.strip()
movie_dict['year'] = soup.find("span", ).text.lstrip("(").rstrip(")")
return movie

三、把爬的電影資料儲存起來

部分截圖（一共抓取了600部電影）：

四、資料分析

通過此柱形圖可以發現美國地區居於首位，畢竟美國發展得比較快，電影事業崛起。

通過對前三個國家的喜劇片分析，近年來美國拍的喜劇片逐步上公升，法國和日本就平平而過。

推薦：這幾部電影評分比較高，看的人也比較多，喜歡看喜劇電影的不妨找這幾部看看。

爬蟲綜合大作業

作業要求來自滿天星辰的夜晚，他們相遇了夏天的時候，她慢慢的接近他，關心他，為他付出一切秋天的時候，兩個人終於如願的在一起，分享一切快樂的時光但終究是快樂時光短暫，因為杰倫必須出國深造，兩人面臨了要分隔兩地的狀況，分隔兩地的愛情總是難以維繫長久，在冬天他們選擇分手。從前從前那帶著痛徹心扉的氣味...

爬蟲綜合大作業

通過瀏覽器的檢查元素要想爬取這些資料，就必須在使用requests庫時設定好請求的頭部 headers 特別是cookie。接下來開始分析首先是找到網易雲歌手網頁在左側我們可以看到歌手的分類，每個分類都對應乙個url的id引數，同一類歌手又通過歌手名字的首字母進行排序，對應url中的init...

爬蟲大作業

1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式，從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析，生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格，描述上述實現過程遇到的問題及解決辦法資料分析思想及結論。6 最後提交爬取的全部資料爬蟲及資料分析源 impo...

爬蟲綜合大作業

爬蟲綜合大作業

爬蟲綜合大作業

爬蟲大作業

相關推薦