python爬蟲的基本框架

1.爬蟲的基本流程：

通過requests庫的get方法獲得**的url

瀏覽器開啟網頁原始碼分析元素節點

通過beautifulsoup或者正規表示式提取想要的資料

儲存資料到本地磁碟或者資料庫

2.正式開工啦

url = 「

page = requests.get(url) #發現返回狀態碼403，說明有問題出現（除200外，其他的都是有問題的）

#這個時候檢視一下爬蟲的robots協議，的確有些問題，解決方案如下：

獲取html頁面

page = requests.get(url, headers = headers)

demo = page.text

#記住，有時候有可能出現編碼問題

#將獲取的內容轉換為beautifulsoup格式，並將html.parser作為直譯器（熬一鍋湯）

soup = beautifulsoup(demo, 'html.parser')

#以格式化的形式列印html

print(soup.prettify()) #利於分析元素節點

#查詢所有a標籤中class=『tilte』的語句

titles = soup.find_all('a', 'title')

for titile in titles:

print(title.string) #列印字串

print("" + title.get('href')) #利用title的get方法獲取連線，可通過dir(titles)檢視可用的方法

#將獲取的內容寫入本地磁碟

with open('aa.txt', 'w') as f:

for title in titles:

f.write(title.string+'\n')

f.write('' + title.get('href') + '\n\n')

爬蟲的基本框架

import requests 呼叫這個庫檔案 defgethtml url 定義名為gethtml的函式 try r requests.get url,timeout 30 獲取傳入的url這個位址的資料，在獲取時間，超過30秒，則判定網頁假死。r.raise for status 如果返回值不是...

Python爬蟲框架

一 u know！二 scrapy入門教程三網路爬蟲之scrapy框架詳解四 scrapy編寫步驟詳情見二 scrapy入門教程 1 mkdir乙個爬蟲資料夾例 mkdir home zy pachong pa test 10 28 2 在 home zy pachong pa test ...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程主要分為三個部分 1 獲取網頁 2 解析網頁獲取資料儲存資料三個流程的技術實現 1.獲取網頁獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術多執行緒抓取登入抓取突破ip限制和伺服器抓取 2.解析網頁解析網頁的技術基礎 re...

python爬蟲的基本框架

爬蟲的基本框架

Python爬蟲框架

python爬蟲基本流程 Python爬蟲流程

相關推薦