爬蟲處理資料的方式(三)BeautifulSoup

2021-09-24 15:33:40 字數 397 閱讀 1202

使用beautifulsoup提取資料

from bs4 import beautifulsoup

html = 『html』

soup = beautifulsoup(html, 'lxml) //建立乙個物件,接受html和解析方式

soup.a //拿到a標籤所有的內容,包括<>

soup.a.string //拿到a標籤裡面的內容

soup.a.parent.name //拿到父標籤的標籤名

soup.a[『class』] //拿到a標籤裡面的class的屬性值

soup.find_all(『a』) //找到所有的a標籤

t1 = soup.a//找到第乙個a標籤

t1.get(『class』)//拿到a標籤的class內容

爬蟲cookie處理的2種方式

通過cookies我們可以實現登入一次後免登入 我直接貼 username和password需要根據 情況分辨 建立cookie處理器 全域性安裝cookie urllib.request.install opener opener 第二種是request庫的,這個庫不虧很方便,下次使用的時候把co...

爬蟲 資料處理

結構化資料 json xml等 尋找json資料中的url 包含json的類檔案物件 往乙個檔案中寫入多個json串,不再是乙個json串,不能直接讀取 html hypertext markup language 超文字標記語言 符號 匹配任何屬性節點 node 匹配任何型別的節點 booksto...

爬蟲 資料處理 pandas資料處理

使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 dataframe替換操作 使用df.std 函式可以求得dataframe物件每一列的標準差 資料清洗清洗重複值 清...