終於採用Bs4成功爬蟲乙個簡單的案例,小白問題多

2021-10-03 23:25:59 字數 646 閱讀 2863

碰到bs4模組不可用的時候:

檔案——setting新增

基本步驟與正規表示式一樣:

1.urlopen發出請求,獲取響應物件

2.獲得response的響應的物件,response.read()得到原始碼資訊,是位元組,decode轉換成字串

3.解析原始碼,建立bs物件

使用bs4的時候,需要建立bs4物件(如果提示模組不可以,用上面的解決方法)

from bs4 import beautifulsoup as bs

#第乙個引數:要處理的字串資訊(原始碼)

#第二個引數:要處理的資訊型別,指定是html.parser

#bs=bs(轉換的原始碼資訊"html.parser")

select(標籤名):例如 bs.select(「title」)

select(.class的屬性值):例如 bs.select(".sister")

find(「標籤名」,):

例如 bs.find(「a」,))

4.儲存

另外用到乙個.join() 功能:能夠將迭代物件中的每個元素取出,形成字串 將列表轉換成字串。

bs4爬取網頁基礎

import requests from bs4 import beautifulsoup def getsoup url try r requests.get url,timeout 30 r.raise for status print r.text 很亂 soup beautifulsoup ...

BS4爬取豆瓣電影

爬取豆瓣top250部電影 建立表 connect.py from sqlalchemy import create engine hostname localhost port 3306 username root password 123456 database douban db url my...

requests和bs4的python爬蟲入門

現在就簡單的講下這幾個月的學習成果嘛 爬蟲其實爬的都是源 然後再通過對源 進行過濾,得出我們想要的東西 有時會需要一些正則的東西 這裡面有一些lazyload的,就需要 selenium webdriver 什麼的了,這個還沒研究到哈,勿噴勿噴。上面的答案也有提到過,用requests和bs4寫爬蟲...