15天學會爬蟲 第四天

2021-09-08 20:58:49 字數 956 閱讀 1281

1.1 單個字元

1.2 多個字元

1.3 re模組

re.findall(「regex」),如果正規表示式進行了分組,需要考慮返回的資料情況

忽略轉義符號\帶來的影響,為了表示原字元本身的話,直接在正規表示式前面加上r即可

windows下的檔案路徑需要加上r

pip install lxml

from lxml import etree

text =

'''

'''# 將網頁內容載入,返回乙個element物件,具有xpath方法

el = etree.html(text)

# 將element物件還原為網頁資料的字串

print

(etree.tostring(el)

.decode())

# xpath表示式如果是定位標籤,返回的結果是乙個以element為元素的列表

li_list = el.xpath(

"//li[@class='item-1']"

)print

(li_list)

# 建議這樣寫

li_list[0]

.xpath(

"./a/@href"

)# 不建議這樣寫

li_list[0]

.xpath(

"a/@href"

)# xpath表示式如果是獲取屬性值或者文字。返回的結果是乙個以字串為元素的列表

href_list = el.xpath(

"//li[@class='item-1']/a/text()"

)print

(href_list)

資料提取的通用方式:先分組,再提取

4天學會python Python第四天

冒泡演算法 迴圈with.open ha.cfg as obji for line in boj 逐行讀取,效率更高 startswith 空字串的bool值為false json 1 內部必須為雙引號。2 字元轉成列表哦 簡化的函式定義 lambda 1 自動return 2 處理簡單邏輯 fun...

十天學會php之第四天

學習目的 學會連線資料庫 php簡直就是乙個函式庫,豐富的函式使php的某些地方相當簡單。建議大家down一本php的函式手冊,總用的到。我這裡就簡單說一下連線mysql資料庫。1 mysql connect 開啟 mysql 伺服器連線。語法 int mysql connect string ho...

十天學會php之第四天

學習目的 學會連線資料庫 php簡直就是乙個函式庫,豐富的函式使php的某些地方相當簡單。建議大家down一本php的函式手冊,總用的到。我這裡就簡單說一下連線mysql資料庫。1 mysql connect 開啟 mysql 伺服器連線。語法 int mysql connect string ho...