03 Python爬蟲入門遇到的坑

2022-07-02 01:54:12 字數 1459 閱讀 6349

3. 向360搜尋提交問題:

使用程式碼模擬使用360搜尋.大概就是要得到下面這個頁面.

首先我們要知道360給出的介面是:

其中的keyword就是我們提交的關鍵字.

這時候我們可以使用乙個字典向瀏覽器提交關鍵字:

kv =
然後使用params屬性提交這個自帶即可.

示例程式碼如下:

import

requests#介面

url = "

"#需要提交的字典(我們要搜尋的內容,此處假設為python)

kv =

#訪問偷

head =

try:

#請求頁面

r = requests.get(url, headers=head, params=kv)

#判斷請求狀態

r.raise_for_status()

#輸出原始碼

print

(r.text)

print("

成功!!")

except

:

print("

頁面獲取失敗!

")

如何獲取介面:所謂的介面說白了就是某個特定格式的url.

1. 開啟360搜尋

2. 搜尋任意關鍵字,最好比較有識別度,我這裡搜尋:好看的小姐姐

3. 點選搜尋,並獲得此時的鏈結:ie=utf-8&fr=none&src=home_www&nlpv=3.8.045ayc&q=%e5%a5%bd%e7%9c%8b%e7%9a%84%e5%b0%8f%e5%a7%90%e5%a7%90

(鏈結貼上出來關鍵字會變成亂碼,所以後面一長串奇奇怪怪的東西就是你原本輸入的關鍵字)

4. 獲取介面:其實取得這個鏈結的時候你已經取得了介面,因為你只需要替換到關鍵字就可以了,但是我們還能把這個介面縮短一點.

4.1. 確定要保留的:

4.1.1. 問號之前的內容全部保留

4.1.2. 關鍵字等號兩邊(包括等號)是要保留的,左邊截止到"&"符號,右邊截止到關鍵字結束

4.2. 其餘的全部刪除,剩下的部分就是(簡短)介面

總結:使用params可以向網站發起搜尋,但是需要自己找到對應的介面,因此如何獲取介面雖然是簡單的,但是必備的.

03 python高階 爬蟲入門 正則

urllib and urllib2 這是兩個python的網路模組 內建的 提供很好的網路訪問的功能。coding utf 8 import urllib2 res urllib2.urlopen html res.read print html 如果我們想要去爬一些可以這樣幹 usr bin e...

03 python爬蟲基本原理

爬蟲是 模擬使用者在瀏覽器或者某個應用上的操作,把操作的過程 實現自動化的程式 當我們在瀏覽器中輸入乙個url後回車,後台會發生什麼?比如說你輸入 簡單來說這段過程發生了以下四個步驟 網路爬蟲本質 本質就是瀏覽器http請求 瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 網路爬蟲...

03 Python集合型別

python集合型別思維導圖 只有1個元素的tuple定義時必須加乙個逗號,來消除歧義 2 常用操作 2 字典的常見操作 2 新增元素 3 刪除元素 clear 3 字典的常見函式 2 keys map.keyset 3 values 4 items 4 字典遍歷 3 dict可以用在需要高速查詢的...