03 Python爬蟲入門遇到的坑

3. 向360搜尋提交問題:

使用程式碼模擬使用360搜尋.大概就是要得到下面這個頁面.

首先我們要知道360給出的介面是:

其中的keyword就是我們提交的關鍵字.

這時候我們可以使用乙個字典向瀏覽器提交關鍵字:

kv =

然後使用params屬性提交這個自帶即可.

示例程式碼如下:

import
requests#介面
url = "
"#需要提交的字典(我們要搜尋的內容,此處假設為python)
kv = 
#訪問偷
head =
try:
#請求頁面
r = requests.get(url, headers=head, params=kv)
#判斷請求狀態
r.raise_for_status()
#輸出原始碼
print
(r.text)
print("
成功!!")
except
: 
print("
頁面獲取失敗!
")

如何獲取介面:所謂的介面說白了就是某個特定格式的url.

1. 開啟360搜尋

2. 搜尋任意關鍵字,最好比較有識別度,我這裡搜尋:好看的小姐姐

3. 點選搜尋,並獲得此時的鏈結:ie=utf-8&fr=none&src=home_www&nlpv=3.8.045ayc&q=%e5%a5%bd%e7%9c%8b%e7%9a%84%e5%b0%8f%e5%a7%90%e5%a7%90

(鏈結貼上出來關鍵字會變成亂碼,所以後面一長串奇奇怪怪的東西就是你原本輸入的關鍵字)

4. 獲取介面:其實取得這個鏈結的時候你已經取得了介面,因為你只需要替換到關鍵字就可以了,但是我們還能把這個介面縮短一點.

4.1. 確定要保留的:

4.1.1. 問號之前的內容全部保留

4.1.2. 關鍵字等號兩邊(包括等號)是要保留的,左邊截止到"&"符號,右邊截止到關鍵字結束

4.2. 其餘的全部刪除,剩下的部分就是(簡短)介面

總結:使用params可以向網站發起搜尋,但是需要自己找到對應的介面,因此如何獲取介面雖然是簡單的,但是必備的.

03 python高階爬蟲入門正則

urllib and urllib2 這是兩個python的網路模組內建的提供很好的網路訪問的功能。coding utf 8 import urllib2 res urllib2.urlopen html res.read print html 如果我們想要去爬一些可以這樣幹 usr bin e...

03 python爬蟲基本原理

爬蟲是模擬使用者在瀏覽器或者某個應用上的操作，把操作的過程實現自動化的程式當我們在瀏覽器中輸入乙個url後回車，後台會發生什麼？比如說你輸入簡單來說這段過程發生了以下四個步驟網路爬蟲本質本質就是瀏覽器http請求瀏覽器和網路爬蟲是兩種不同的網路客戶端，都以相同的方式來獲取網頁網路爬蟲...

03 Python集合型別

python集合型別思維導圖只有1個元素的tuple定義時必須加乙個逗號,來消除歧義 2 常用操作 2 字典的常見操作 2 新增元素 3 刪除元素 clear 3 字典的常見函式 2 keys map.keyset 3 values 4 items 4 字典遍歷 3 dict可以用在需要高速查詢的...

03 Python爬蟲入門遇到的坑

03 python高階 爬蟲入門 正則

03 python爬蟲基本原理

03 Python集合型別

相關推薦

03 python高階爬蟲入門正則