爬蟲學習(1)

2021-09-27 06:51:30 字數 1681 閱讀 3305

2023年11月1日

no comments

article

爬蟲,顧名思義,就是在網際網路上爬行的程式,能抓取內容,利用正規表示式匹配後,則能找到想要的內容。

import urllib2

response = urllib2.urlopen("")

print response.read() #response是乙個物件,具有read()方法

推薦是先構造乙個request請求,再用urllib2.urlopen()函式響應請求

import urllib2

resquest = urllib2.request("")

response = urllib2.urlopen(request)

#先構造乙個請求,再響應請求,邏輯清晰

再者,有時候有些**需要提交資料,所以可以有。先提交資料再,響應請求。

需要提交的資料values*****=》values經過編碼*****》提交給**伺服器===》響應

#!/usr/bin/python

# -*- encoding:utf-8 -*-

import urllib

import urllib2

values =

postdata = urllib.urlencode(values)

url = ""

request = urllib2.request(url,postdata)

response = urllib2.urlopen(request)

print response.read()

我們引入了urllib庫,現在我們模擬登陸csdn,當然上述**可能登陸不進去,因為還要做一些設定頭部header的工作,或者還有一些引數 沒有設定全,還沒有提及到在此就不寫上去了,在此只是說明登入的原理。我們需要定義乙個字典,名字為values,引數我設定了username和 password,下面利用urllib的urlencode方法將字典編碼,命名為data,構建request時傳入兩個引數,url和data,運 行程式,即可實現登陸,返回的便是登陸後呈現的頁面內容。當然你可以自己搭建乙個伺服器來測試一下。

接著是get方法

import urllib

import urllib2

values={}

values['username'] = "[email protected]"

values['password']="***x"

data = urllib.urlencode(values)

url = ""

geturl = url + "?"+data

request = urllib2.request(geturl)

response = urllib2.urlopen(request)

print response.read()

categories:python, 爬蟲

電子郵件位址不會被公開。 必填項已用*標註

姓名 *

電子郵件 *

站點 您可以使用這些html標籤和屬性:

Magical爬蟲 學習 1

最開始了解python的時候就有聽說爬蟲,感覺好神奇!學完pyhton基礎些的知識後就在想要繼續學點什麼,就這個啦 先在網上找了很多關於爬蟲的東西瞅了瞅,又看到了這個python實戰 一周學會爬取網頁!完整課程是四周的,要交些學費,我準備先拿免費教程上上手 嘿嘿 是網易雲課堂上的課程,講的真的很好,...

爬蟲學習筆記1

目錄通過程式設計向網路伺服器請求資料 html表單 然後解析html,提取出自己想要的資料。哇 為何有種相見恨晚的趕腳?基礎知識可以參考一下崔慶才老師的官方部落格,基本知識點都提到了,就是不太深,但是作為入門夠了.這個鏈結的中文釋義就是,可以https這個協議訪問的資源,位於主機blog.csdn....

python爬蟲 學習1

1 import requests 2from bs4 import beautifulsoup 3import bs44 defgethtmltext url 獲取html內容,利用try和except框架可以丟擲異常 5try 6 r requests.get url,timeout 30 獲取...