python 爬蟲 知乎

2021-09-22 17:33:56 字數 1181 閱讀 4642

人生苦短,唯有python

是不是**寫多了自己就熟練了呢?

人人網爬蟲模板,具體操作以後有機會再新增吧!

#coding: utf-8

import urllib2

import urllib

import cookielib

import re

def zhihubrower(url,user,password):

#登陸頁面,可以通過抓包工具分析獲得,如fiddler,wireshark

login_page = ""

try:

#獲得乙個cookiejar例項

cj = cookielib.cookiejar()

#cookiejar作為引數,獲得乙個opener的例項

#偽裝成乙個正常的瀏覽器,避免有些web伺服器拒絕訪問。

opener.addheaders = [('user-agent','mozilla/5.0 (windows nt 6.3; wow64; rv:36.0) gecko/20100101 firefox/36.0')]

#偽裝成內部訪問

opener.addheaders = [('refer','')]

#生成post資料,含有登陸使用者名稱密碼。

data = urllib.urlencode()

#以post的方法訪問登陸頁面,訪問之後cookiejar會自定儲存cookie

opener.open(login_page,data)

#以帶cookie的方式訪問頁面

op=opener.open(url)

#讀取頁面原始碼

data= op.read()

return data

#異常處理

except exception,e:

print str(e)

#訪問某使用者的個人主頁,其實這已經實現了人人網的簽到功能。

html = zhihubrower("",'[email protected]','********')

print html

print '-----end--------'

python 爬蟲 登入知乎

pytho3.4 requests.get request.post requests.session 1 通過瀏覽器f12開發者工具,找到登入時提交的表單以及請求的url 注意請求的url不是瀏覽器網域名稱框的url 因為知乎改了,現在不需要驗證碼了,所以中少了驗證碼的引數,不過 裡是有的 2 設...

知乎首頁爬蟲

嘗試了一下知乎首頁爬蟲 import re import requests from urllib import parse 首頁鏈結 headers resp requests.get headers headers print resp.text urls re.findall content ...

Python 爬蟲模擬登陸知乎

在之前寫過一篇使用python爬蟲爬取電影天堂資源的部落格,重點是如何解析頁面和提高爬蟲的效率。由於電影天堂上的資源獲取許可權是所有人都一樣的,所以不需要進行登入驗證操作,寫完那篇文章後又花了些時間研究了一下python模擬登陸,網上關於這部分的資料很多,很多demo都是登陸知乎的,原因是知乎的登陸...