python爬蟲入門學習記錄

2021-09-27 16:44:08 字數 902 閱讀 4323

在使用爬蟲前確保requests和beautifulsoup4模組都已經安裝好了:

pip install requests

pip install beautifulsoup4

beautifulsoup4使用手冊:

簡單的示列**:

import requests #匯入requests包

url = ''

strhtml = requests.get(url) #get方式獲取網頁資料

strhtml.encoding='utf-8'

print(strhtml.text)

注:這裡面使用requests的get方法來獲取html,具體是get還是post等等要通過網頁頭資訊來查詢(以谷歌瀏覽器為例,在開發者模式下,network,選擇all進行檢視,可能需要重新整理)

通過點取屬性的方式只能獲得當前名字的第乙個標籤,如: soup.body.a

如果想要得到所有的標籤,或是通過名字得到比乙個tag更多的內容的時候,就需要用到 searching the tree 中描述的方法,比如: find_all()

tag.name

tag.name = "black" #修改標籤名

tag['class'] #獲取屬性

tag.attrs #獲取所有屬性

tag['id'] = 1 #修改屬性

del tag['class'] #刪除屬性

tag.string.replace_with('no longer') #tag中包含的字串不能編輯,但是可以被替換成其它的字串,用 replace_with() 方法

tag.string #輸出標籤中的字串

head_tag.contents[3].name #標籤的 .contents 屬性可以將標籤的子節點以列表的方式輸出:

python入門記錄 Python 入門學習記錄

基礎語法 縮排縮排表達 內容的所屬關係的唯一方式,中縮排的長度必須保持統一。注釋python 使用 作為單行注釋標識,作為多行注釋標識。如 這是單行注釋 這是多行注釋 命令 保留字 命名規則 大小寫字元 數字 下劃線和漢字等字元及組合。大小寫敏感,首字元不能為數字,不能與保留字相同。保留字 被程式語...

python小白學習記錄 爬蟲requests篇

一 引用庫 import requests 二 請求訪問url,網頁相應 res requests.get 網頁位址 三 表明返回內容 目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...

爬蟲學習記錄

如何將字串轉換為字典 字典推導式 cookies anonymid j3jxk555 nrn0wh r01 1 ga ga1.2.1274811859.1497951251 de bf09ee3a28ded52e6b65f6a4705d973f1383380866d39ff5 ln uact mr ...