爬蟲處理資料的方式（三）BeautifulSoup

使用beautifulsoup提取資料

from bs4 import beautifulsoup

html = 『html』

soup = beautifulsoup(html, 'lxml) //建立乙個物件，接受html和解析方式

soup.a //拿到a標籤所有的內容，包括<>

soup.a.string //拿到a標籤裡面的內容

soup.a.parent.name //拿到父標籤的標籤名

soup.a[『class』] //拿到a標籤裡面的class的屬性值

soup.find_all(『a』) //找到所有的a標籤

t1 = soup.a//找到第乙個a標籤

t1.get(『class』)//拿到a標籤的class內容

通過cookies我們可以實現登入一次後免登入我直接貼 username和password需要根據情況分辨建立cookie處理器全域性安裝cookie urllib.request.install opener opener 第二種是request庫的，這個庫不虧很方便，下次使用的時候把co...

結構化資料 json xml等尋找json資料中的url 包含json的類檔案物件往乙個檔案中寫入多個json串，不再是乙個json串，不能直接讀取 html hypertext markup language 超文字標記語言符號匹配任何屬性節點 node 匹配任何型別的節點 booksto...

使用duplicated 函式檢測重複的行，返回元素為布林型別的series物件，每個元素對應一行，如果該行不是第一次出現，則元素為true keep引數指定保留哪一重複的行資料 dataframe替換操作使用df.std 函式可以求得dataframe物件每一列的標準差資料清洗清洗重複值清...