python爬蟲小記

2021-09-10 10:42:35 字數 1261 閱讀 2337

['__builtins__','__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__','__path__', '__spec__', 'error', 'parse', 'request', 'response']

request的使用

1.request請求最簡單的操作是用urlopen方法,**如下:

import urllib.request

response = urllib.request.urlopen('')

result=response.read().decode('utf-8')

print(result)

四、xpath介紹

xpath即為xml語言,它是一種用來確定xml(標準通用對的標記語言的子集)文件中某部分位置的語言。xpath基於xml的樹狀結構,有不同型別的節點,包括元素節點,提供的資料結構中找尋節點的能力

1.獲取某個標籤的內容,獲取a標籤的所有內容

寫法一:

html = etree.html(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a')

print(html)

for i in html_data:

print(i.text)

結果first item

second item

third item

fourth item

fifth item

寫法二:

html = etree.html(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a/text()')

print(html)

for i in html_data:

print(i)

結果:first item

second item

third item

fourth item

fifth item

2.開啟讀取html檔案

#使用parse開啟html的檔案

html = etree.parse('test.html')

html_data = html.xpath('//*')

#列印是乙個列表,需要遍歷

print(html_data)

for i in html_data:

print(i.text)

python爬蟲小記

1 在寫爬蟲的時候,思考 的總體格局,讓 既可以捕捉異常又容易閱讀 2 具有周密的異常處理功能,會讓快速穩定地網路資料採集變得簡單易行。3 面對頁面解析難題 gordian knot 的時候,不假思索地直接寫幾行語句來抽取資訊是非常直接的做法。但是,像這樣魯莽放縱地使用技術,只會讓程式變得難以除錯或...

Python 爬蟲小記

1 背景 需要爬取網上的資訊,ubuntu系統下 使用python完成 使用方法 from bs4 import beautifulsoup requests pip install requests 用python語言基於urllib編寫的,採用的是apache2 licensed開源協議的htt...

爬蟲小記(2)

自從兩個月前說要學習爬蟲開始,我其實做了好多準備了,只是開始的有點晚了吧。希望後面的進度能夠變的快一點。使用這些庫就能實現我們想要做的一些基本的功能,包括爬取一些簡單的 的內容,requests庫的功能是我覺得最實用的,只依靠這樣乙個庫我就可以實現解析乙個url,獲得網頁裡的內容,還可以判斷在連線u...