python 網路爬蟲 beautifulsoup

1.安裝beautifulsoup

2.使用beautifulsoup快速建立**格式

from bs4 import beautifulsoup
html = '-------->-------->>名字》年齡》性別》
地點小一》28
北京》'soup = beatifulsoup(html)
print(soup.prettify())

3.使用beautifulsoup進行精確查詢

#查詢標籤p，當標籤為其他時，只需要把標籤名p替換成其他的標籤名
#他的缺點是只能夠找到最先發現的那乙個
soup.p
#查詢標籤中的所有屬性,返回乙個字典
soup.p.attrs
#查詢標籤中的乙個具體屬性
soup.p["class"]
#用select查詢所有標籤title
soup.select("title")
#用select查詢所有的class為sister的標籤
soup.select(".sister") 
#用select查詢所有id為link1的類
soup.select("link1")
#用select查詢所有p標籤中id為link1的標籤，返回列表
soup.select("p #link1")
#查詢所有p標籤下的子標籤a
soup.select("p>a")
#查詢所有class為sister的a標籤
soup.select("a[class="sister"]")

4.獲取標籤或屬性的返回值

#以p標籤中的a標籤為例
soup.select("p>a").string
#獲取屬性返回值
soup.select("p>a")["src"]

Python網路爬蟲

找到url，也就是相當於入口，找到你要爬取的鏈結，獲取整個頁面資料使用正規表示式，匹配到你想要爬取的內容，這裡使用的主要是正規表示式和一些常用的開源庫最後一步就是寫入文字以及儲存問題了，如文字檔案資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼，所謂網路爬蟲就是從某乙個頁面通常是首頁開始，讀取網頁的內容，找到在網頁中的其它鏈結位址，然後通過這些鏈結位址尋找下乙個網頁，這樣一直迴圈下去，直到把這個所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是，從爬去尋找關鍵...

python網路爬蟲

前言去掉所有標籤 dr re.compile r re.s dd dr.sub jiner 任意內容可以匹配多位數字可以匹配用逗號隔開的數字可以匹配一位的數字可以匹配帶小數點的數字匹配空白符匹配最後兩位 re.search 0 9 0 9 0 9 s.dd 當然，爬蟲還有乙個很關鍵的就通...

python 網路爬蟲 beautifulsoup

Python網路爬蟲

python網路爬蟲

python網路爬蟲

相關推薦