簡單Python爬蟲獲取指定網頁內容示例

2021-10-24 19:32:02 字數 2054 閱讀 1641

剛開始參考了一篇文章:python獲取網頁指定內容(beautifulsoup工具的使用方法),自己嘗試後,發現出現錯誤:urllib.error.httperror: http error 418,查詢後發現是:某些網頁有反爬蟲的機制。解決方法參考:python爬蟲的urllib.error.httperror: http error 418錯誤,可以設定乙個headers資訊(user-agent),模擬成瀏覽器去訪問這些**,從而獲得資料。

爬取的**為:豆瓣電影(

檢視網頁原始碼:

("豆瓣電影top250"

+"\n"

+" 影片名 評分 評價人數 鏈結 "

)df_ret = dataframe(columns=

[" 影片名"

,"評分"

,"評價人數"

,"鏈結 "])

count =

0for tag in soup.find_all(

'div'

, class_=

'info'):

m_name = tag.find(

'span'

, class_=

'title'

).get_text(

) m_rating_score =

float

(tag.find(

'span'

, class_=

'rating_num'

).get_text())

m_people = tag.find(

'div'

, class_=

"star"

) m_span = m_people.findall(

'span'

) m_peoplecount = m_span[3]

.contents[0]

m_url = tag.find(

'a')

.get(

'href'

)print

(m_name +

" "

+str

(m_rating_score)

+" "

+ m_peoplecount +

" "

+ m_url)

df_ret.loc[count]

=[m_name,

str(m_rating_score)

,m_peoplecount, m_url]

count = count +

1# 儲存輸出結果到csv

df_ret.to_csv(

'movies_names_set.csv'

, encoding=

'gbk'

)print

(df_ret.head(

))輸出csv檔案格式如下:

Python爬蟲獲取拉勾網招聘資訊

之前寫過乙份爬取拉勾網搜尋 資料分析 相關職位的文章拉勾網職位資訊爬蟲練習 最近入職了一家設計為主的公司,所以想做乙份關於 設計 的資料分析報告,發現直接跑原來的 會爬不到資料,所以稍微修改了一下。本篇主要記錄爬蟲 匯入使用的庫 import requests from bs4 import bea...

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

python爬蟲我要個性網,獲取頭像

python爬蟲學習 提前宣告 請勿他用,僅限個人學習 運用模組有 import requests import re import os 較為常規,適合網路小白。lxml和bs4也是基礎。長話短說。headers link 編寫請求頭資訊 編寫請求頭,和要獲取的 link,一般常用url,只是乙個...