爬蟲學習（1）

2023年11月1日

no comments

article

爬蟲，顧名思義，就是在網際網路上爬行的程式，能抓取內容，利用正規表示式匹配後，則能找到想要的內容。

import urllib2
response = urllib2.urlopen("")
print response.read() #response是乙個物件，具有read()方法

推薦是先構造乙個request請求，再用urllib2.urlopen()函式響應請求

import urllib2
resquest = urllib2.request("")
response = urllib2.urlopen(request)
#先構造乙個請求，再響應請求，邏輯清晰

再者，有時候有些**需要提交資料，所以可以有。先提交資料再，響應請求。

需要提交的資料values*****=》values經過編碼*****》提交給**伺服器===》響應

#!/usr/bin/python
# -*- encoding:utf-8 -*-
import urllib
import urllib2
values = 
postdata = urllib.urlencode(values)
url = ""
request = urllib2.request(url,postdata)
response = urllib2.urlopen(request)
print response.read()

我們引入了urllib庫，現在我們模擬登陸csdn，當然上述**可能登陸不進去，因為還要做一些設定頭部header的工作，或者還有一些引數沒有設定全，還沒有提及到在此就不寫上去了，在此只是說明登入的原理。我們需要定義乙個字典，名字為values，引數我設定了username和 password，下面利用urllib的urlencode方法將字典編碼，命名為data，構建request時傳入兩個引數，url和data，運行程式，即可實現登陸，返回的便是登陸後呈現的頁面內容。當然你可以自己搭建乙個伺服器來測試一下。

接著是get方法

import urllib
import urllib2
values={}
values['username'] = "[email protected]"
values['password']="***x"
data = urllib.urlencode(values) 
url = ""
geturl = url + "?"+data
request = urllib2.request(geturl)
response = urllib2.urlopen(request)
print response.read()

categories:python, 爬蟲

電子郵件位址不會被公開。必填項已用*標註

姓名 *

電子郵件 *

站點您可以使用這些html標籤和屬性：

Magical爬蟲學習 1

最開始了解python的時候就有聽說爬蟲，感覺好神奇！學完pyhton基礎些的知識後就在想要繼續學點什麼，就這個啦先在網上找了很多關於爬蟲的東西瞅了瞅，又看到了這個python實戰一周學會爬取網頁！完整課程是四周的，要交些學費，我準備先拿免費教程上上手嘿嘿是網易雲課堂上的課程，講的真的很好，...

爬蟲學習筆記1

目錄通過程式設計向網路伺服器請求資料 html表單然後解析html，提取出自己想要的資料。哇為何有種相見恨晚的趕腳？基礎知識可以參考一下崔慶才老師的官方部落格，基本知識點都提到了，就是不太深，但是作為入門夠了.這個鏈結的中文釋義就是，可以https這個協議訪問的資源，位於主機blog.csdn....

python爬蟲學習1

1 import requests 2from bs4 import beautifulsoup 3import bs44 defgethtmltext url 獲取html內容,利用try和except框架可以丟擲異常 5try 6 r requests.get url,timeout 30 獲取...

爬蟲學習（1）

Magical爬蟲 學習 1

爬蟲學習筆記1

python爬蟲 學習1

相關推薦

Magical爬蟲學習 1

python爬蟲學習1