Python爬蟲筆記

2021-09-27 03:24:23 字數 1550 閱讀 7382

庫函式檢視方法:

例如在python中輸入help(requests.get)檢視

request庫:

r=request.get(url,params,**kwargs)

等價於requests.request(『get』,url,**kwargs)

**kwargs//12個控制訪問方法

params:字典或位元組序列,作為引數加入url

構造乙個向伺服器請求資源的requests物件

返回乙個包含伺服器資源的response物件

response物件:

r.status_code http請求的返回狀態,int

r.text http響應內容的字串形式,str

r.content http響應內容的二進位制形式,byte

beautifulsoup庫:

from bs4 import beautifulsoup

soup=beautifulsoup(r.text,「html.parser」)

data

』返回bs4物件

beautifulsoup類的基本元素

tag=soup.a.parent//a標籤的父親

tag.name //名字,str

tag.attar //字典,dict

tag.string //非屬性字串,str

tag.next_sibling //下乙個並行節點標籤

其中tag() == tag.find_all()

re庫:

正規表示式常用符號

其他:join() 方法用於將序列中的元素以指定的字元連線生成乙個新的字串。

seq = (「a」, 「b」, 「c」); # 字串序列

print 『-』.join( seq );

–>a-b-c

str.split()通過指定分隔符對字串進行切片,返回list列表

檔案讀寫:

f=open(fpath,『w』)

print(arrivetime,file=f)

f.close()

Python筆記 爬蟲

用到的庫 urllib。在python3.x中 urlretrieve函式也在urllib.request下,因此只需要匯入request即可。from urllib import request基本的思路是 用request.urlopen 開啟網頁 url.read decode 得到網頁原始碼...

Python爬蟲筆記

import requests 匯入requests模組 1.傳送請求 import requests r requests.get 2.定製headers 這種情況適用於爬取返回的結果出現 抱歉 無法訪問 等字眼時,這時需要模擬乙個介面伺服器自行爬取的狀態 import requests r re...

Python 爬蟲筆記

requests scrapy 兩個解析 html 文件的有力工具 lxml beautifulsoup4,一切暴露在網際網路中的資料,都不是絕對安全的,但絕對是需要費腦筋才需要得到的,爬蟲很簡單學,真正難的是反爬。requests 模組常用方法 單次請求 每傳送一次請求,就需要呼叫一次 多次請求 ...