Python爬蟲筆記

2021-09-22 16:38:09 字數 1007 閱讀 5037

import requests #匯入requests模組

1.傳送請求

import requests

r=requests.get('')

2.定製headers

這種情況適用於爬取返回的結果出現「抱歉」「無法訪問」等字眼時,這時需要模擬乙個介面伺服器自行爬取的狀態

import requests

r=requests.get("",headers=headers)

print(r.text)

3.定製url引數

from bs4 import beautifulsoup #匯入beautifulsoup模組

import re #匯入re模組

1.爬取網頁的時候使用

eg:

import requests

import re

r=p=

pattern=re.compile('(.*?)')

for i in range(5):#爬取《小王子》前5頁的短評

i=1for item in p:

for item_content in item:

print(str(i)+item_content)

i+=1

2.對檔案中的部分字段進行替代

eg:

import re

with open('taglines.list',encoding='utf-8') as fp:#taglines.list是要匹配的檔名

data = fp.read()

pattern = re.compile('# "(.*?)" \((.*?)\)')#原始欄位為「# "2091" (2016),需要對『(』和『)進行轉義」

p= re.findall(pattern,data)

Python筆記 爬蟲

用到的庫 urllib。在python3.x中 urlretrieve函式也在urllib.request下,因此只需要匯入request即可。from urllib import request基本的思路是 用request.urlopen 開啟網頁 url.read decode 得到網頁原始碼...

Python 爬蟲筆記

requests scrapy 兩個解析 html 文件的有力工具 lxml beautifulsoup4,一切暴露在網際網路中的資料,都不是絕對安全的,但絕對是需要費腦筋才需要得到的,爬蟲很簡單學,真正難的是反爬。requests 模組常用方法 單次請求 每傳送一次請求,就需要呼叫一次 多次請求 ...

python筆記 爬蟲

正規表示式 ref 爬ref 更新了一下 版本,刪去了函式調取。1.urllib re實現 import urllib.request import re url 根據url獲取網頁html內容 page urllib.request.urlopen url html page.read 從html...