Python 從0開始寫爬蟲小試身手

先寫個demo獲取資料，我不會做太多介紹，基本上都會寫在注釋裡。

url為爬取的鏈結，headers主要是假裝我們不是爬蟲，現在我們就假裝我們是個chrome瀏覽器

response = urllib.request.urlopen(request) #

請求資料

data = response.read() #

讀取返回的資料

data.decode(

"utf-8

") #

設定字元格式為utf-8，可以處理中文

然後我們用beautifulsoup試著解析一下。

先導入beautifulsoup，一般都是加在最上面

import
urllib.request
from bs4 import beautifulsoup

然後在最後面把 print(data) 那句去掉加上

soup = beautifulsoup(data, "html.parser")  # 把html轉換成beautifulsoup物件，這樣我們就可以用beautifulsoup的方法來解析html
print(soup) # 列印

控制台輸出如下

然後我們可以

print(soup.title)  #
列印標題
print(soup.find_all("
a")) #
列印所有a標籤

控制台輸出，因為find_all("a") 會找出所有的a標籤，所以輸出很多

現在就得去了解beautifulsoup更多的知識，以便我們能更加快速得獲取我們想要得資訊。

忘了貼一下完整的**

import
urllib.request
from bs4 import
beautifulsoup
header =
url = "
"request = urllib.request.request(url=url, headers=header) #
url為爬取的鏈結，headers主要是假裝我們不是爬蟲，現在我們就假裝我們是個chrome瀏覽器
response = urllib.request.urlopen(request) #
請求資料
data = response.read() #
讀取返回的資料
data.decode(
"utf-8
") #
設定字元格式為utf-8，可以處理中文
soup = beautifulsoup(data, "
html.parser
") #
把html轉換成beautifulsoup物件，這樣我們就可以用beautifulsoup的方法來解析html
print(soup.title) #
列印標題
print(soup.find_all("
a")) #
列印所有a標籤

Python 從0開始寫爬蟲轉身扒豆瓣電影

豆瓣就比較符合這個明人不說暗話的原則。所以我們扒豆瓣，不多說，直接上 from scrapy import import reheader movie url m id re.search 0 9 movie url group 獲取soup物件 utf 8 content soup.find ...

Python從0開始安裝

進入官網選擇download downloads 直接選擇最新版本安裝。是exe檔案，直接下一步下一步，要勾選path.我為了方便在台式電腦和筆記本都安裝了神奇的事情發生了，正常應該顯示但是我在台式電腦上輸入測試正常，筆記本提示的是如下 python is not recognized as ...

從0開始Python 變數

變數是程式中乙個臨時存放資料的場所。在執行程式的時候變數是可以改變的，並且改變次數是不確定的。需要注意的是變數必須先定義才能使用。我們可以先定義乙個名字為a的變數 a 10 現在我們就定義了乙個名字為a的變數，這個變數所對應的資料為10。現在我們來列印這個變數，並利用type函式來獲取這個變數的資料...

Python 從0開始寫爬蟲 小試身手

Python 從0開始寫爬蟲 轉身扒豆瓣電影

Python從0開始 安裝

從0開始Python 變數

相關推薦

Python 從0開始寫爬蟲小試身手

Python 從0開始寫爬蟲轉身扒豆瓣電影

Python從0開始安裝