bs4的基本用法

#本檔案用來記錄bs4的用法 # from bs4 import beautifulsoup # 使用方法：將乙個html文件，轉化為指定物件，然後通過物件的方法或屬性去查詢指定的內容 # 轉化本地檔案： # soup = beautifulsoup(open('本地檔案', 'lxml')) # 轉化網路檔案： # soup = beautifulsoup('字串型別或位元組型別', 'lxml') # （1）根據標籤名查詢 # soup.a 只能找到第乙個符合要求的標籤 # （2）獲取屬性 # soup.a.attrs 獲取所有的屬性和值，返回乙個字典 # soup.a.attrs['href'] 獲取href屬性 # soup.a['href']也可簡寫為這種形式 # （3）獲取內容 # soup.a.string # soup.a.text # soup.a.get_text() # 如果標籤中還有標籤，則string獲取不到結果，而其他兩個可以獲取文字內容 # （4）find # soup.find('a') 找到第乙個a # soup.find('a', title="***") 找到第乙個符合要求title="***"的a # soup.find('a', class_="***") 由於class是關鍵字，所以要在後面加乙個下劃線來轉義 ## find的方法不僅soup可以呼叫，普通的div物件也可以呼叫，會去指定的div裡面去查詢符合要求的節點 # find找到的都是第乙個符合要求的標籤 # （5）find_all # div = soup.find('div', class_="tang") # div.find_all('a')找出所有的含有a的 # div.find_all(['a','b'])找出同時有a和b的 # div.find_all('a', limit=2)找出前2個a # find_all找到的是列表，因此需要把裡面的元素乙個乙個地拿出來，然後才可以用['href']之類提取屬性的方法 # （6）select # 根據選擇器找到指定的內容 # 常見的選擇器：標籤選擇器、類選擇器、id選擇器、組合選擇器、層級選擇器、屬性選擇器 # 標籤選擇器：a # 類選擇器：.dudu # id選擇器：#lala # 組合選擇器：a, .dudu, #lala, .meme # 層級選擇器：div .dudu #lala .meme .xixi # div > p > a > .lala（只限制你下一級，層次結構清晰） # 屬性選擇器：input[name='lala'] # select選擇器返回的永遠是列表，需要通過下標提取指定的物件，然後獲取屬性和節點，通常是帶標籤的，要獲取內容，參照上面的.text等

# 該方法也可以通過普通物件呼叫，找到的都是這個物件下面符合要求的所有節點

bs4的基本用法

bs4和xpath的用法

爬蟲架構 bs4

爬蟲 bs4模組

bs4的基本用法

bs4和xpath的用法

爬蟲架構 bs4

爬蟲 bs4模組

相關推薦