Python 從0開始寫爬蟲 小試身手

2022-03-02 09:49:16 字數 1916 閱讀 2702

先寫個demo獲取資料,我不會做太多介紹,基本上都會寫在注釋裡。

url為爬取的鏈結,headers主要是假裝我們不是爬蟲,現在我們就假裝我們是個chrome瀏覽器

response = urllib.request.urlopen(request) #

請求資料

data = response.read() #

讀取返回的資料

data.decode(

"utf-8

") #

設定字元格式為utf-8,可以處理中文

然後我們用beautifulsoup試著解析一下。

先導入beautifulsoup, 一般都是加在最上面

import

urllib.request

from bs4 import beautifulsoup

然後在最後面把 print(data) 那句去掉加上

soup = beautifulsoup(data, "html.parser")  # 把html轉換成beautifulsoup物件,這樣我們就可以用beautifulsoup的方法來解析html

print(soup) # 列印

控制台輸出如下

然後我們可以

print(soup.title)  #

列印標題

print(soup.find_all("

a")) #

列印所有a標籤

控制台輸出, 因為find_all("a")  會找出所有的a標籤,所以輸出很多

現在就得去了解beautifulsoup更多的知識,以便我們能更加快速得獲取我們想要得資訊。

忘了貼一下完整的**

import

urllib.request

from bs4 import

beautifulsoup

header =

url = "

"request = urllib.request.request(url=url, headers=header) #

url為爬取的鏈結,headers主要是假裝我們不是爬蟲,現在我們就假裝我們是個chrome瀏覽器

response = urllib.request.urlopen(request) #

請求資料

data = response.read() #

讀取返回的資料

data.decode(

"utf-8

") #

設定字元格式為utf-8,可以處理中文

soup = beautifulsoup(data, "

html.parser

") #

把html轉換成beautifulsoup物件,這樣我們就可以用beautifulsoup的方法來解析html

print(soup.title) #

列印標題

print(soup.find_all("

a")) #

列印所有a標籤

Python 從0開始寫爬蟲 轉身扒豆瓣電影

豆瓣就比較符合這個 明人不說暗話 的原則。所以我們扒豆瓣,不多說,直接上 from scrapy import import reheader movie url m id re.search 0 9 movie url group 獲取soup物件 utf 8 content soup.find ...

Python從0開始 安裝

進入官網 選擇download downloads 直接選擇最新版本安裝。是exe檔案,直接下一步下一步,要勾選path.我為了方便在台式電腦和筆記本都安裝了 神奇的事情發生了,正常應該顯示 但是我在台式電腦上輸入測試正常,筆記本提示的是如下 python is not recognized as ...

從0開始Python 變數

變數是程式中乙個臨時存放資料的場所。在執行程式的時候變數是可以改變的,並且改變次數是不確定的。需要注意的是變數必須先定義才能使用。我們可以先定義乙個名字為a的變數 a 10 現在我們就定義了乙個名字為a的變數,這個變數所對應的資料為10。現在我們來列印這個變數,並利用type函式來獲取這個變數的資料...