1.爬蟲的基本流程:
通過requests庫的get方法獲得**的url
瀏覽器開啟網頁原始碼分析元素節點
通過beautifulsoup或者正規表示式提取想要的資料
儲存資料到本地磁碟或者資料庫
2.正式開工啦
url = 「
page = requests.get(url) #發現返回狀態碼403,說明有問題出現(除200外,其他的都是有問題的)
#這個時候檢視一下爬蟲的robots協議,的確有些問題,解決方案如下:
獲取html頁面
page = requests.get(url, headers = headers)
demo = page.text
#記住,有時候有可能出現編碼問題
#將獲取的內容轉換為beautifulsoup格式,並將html.parser作為直譯器(熬一鍋湯)
soup = beautifulsoup(demo, 'html.parser')
#以格式化的形式列印html
print(soup.prettify()) #利於分析元素節點
#查詢所有a標籤中class=『tilte』的語句
titles = soup.find_all('a', 'title')
for titile in titles:
print(title.string) #列印字串
print("" + title.get('href')) #利用title的get方法獲取連線,可通過dir(titles)檢視可用的方法
#將獲取的內容寫入本地磁碟
with open('aa.txt', 'w') as f:
for title in titles:
f.write(title.string+'\n')
f.write('' + title.get('href') + '\n\n')
爬蟲的基本框架
import requests 呼叫這個庫檔案 defgethtml url 定義名為gethtml的函式 try r requests.get url,timeout 30 獲取傳入的url這個位址的資料,在獲取時間,超過30秒,則判定網頁假死。r.raise for status 如果返回值不是...
Python爬蟲框架
一 u know!二 scrapy入門教程 三 網路爬蟲之scrapy框架詳解 四 scrapy編寫步驟 詳情見二 scrapy入門教程 1 mkdir乙個爬蟲資料夾 例 mkdir home zy pachong pa test 10 28 2 在 home zy pachong pa test ...
python爬蟲基本流程 Python爬蟲流程
python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...