python爬蟲的基本框架

2022-08-12 01:06:16 字數 996 閱讀 9365

1.爬蟲的基本流程:

通過requests庫的get方法獲得**的url

瀏覽器開啟網頁原始碼分析元素節點

通過beautifulsoup或者正規表示式提取想要的資料

儲存資料到本地磁碟或者資料庫

2.正式開工啦

url = 「

page = requests.get(url)  #發現返回狀態碼403,說明有問題出現(除200外,其他的都是有問題的)

#這個時候檢視一下爬蟲的robots協議,的確有些問題,解決方案如下:

獲取html頁面

page = requests.get(url, headers = headers)

demo = page.text

#記住,有時候有可能出現編碼問題

#將獲取的內容轉換為beautifulsoup格式,並將html.parser作為直譯器(熬一鍋湯)

soup = beautifulsoup(demo, 'html.parser')

#以格式化的形式列印html

print(soup.prettify())       #利於分析元素節點

#查詢所有a標籤中class=『tilte』的語句

titles = soup.find_all('a', 'title') 

for titile in titles:

print(title.string)      #列印字串

print("" + title.get('href'))    #利用title的get方法獲取連線,可通過dir(titles)檢視可用的方法

#將獲取的內容寫入本地磁碟

with open('aa.txt', 'w') as f:

for title in titles:

f.write(title.string+'\n')

f.write('' + title.get('href') + '\n\n')

爬蟲的基本框架

import requests 呼叫這個庫檔案 defgethtml url 定義名為gethtml的函式 try r requests.get url,timeout 30 獲取傳入的url這個位址的資料,在獲取時間,超過30秒,則判定網頁假死。r.raise for status 如果返回值不是...

Python爬蟲框架

一 u know!二 scrapy入門教程 三 網路爬蟲之scrapy框架詳解 四 scrapy編寫步驟 詳情見二 scrapy入門教程 1 mkdir乙個爬蟲資料夾 例 mkdir home zy pachong pa test 10 28 2 在 home zy pachong pa test ...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...