011 python介面 bs4提取結果

2022-04-28 23:30:16 字數 2979 閱讀 4419

功能:bs4提取結果

目錄: 一: 登入拉勾網

'''

一: 登入拉勾網

#

coding:utf-8

import

requests

import

refrom bs4 import

beautifulsoup

import

urllib3

import

hashlib

urllib3.disable_warnings()

import

sysclass

loginlgw():

def__init__

(self, s):

self.s =s

defgettoekncode(self):

'''獲取拉勾網 - token和code

:return:

'''#

更新資料 - 頭部資訊

url = "

"head =

self.s.headers.update(head)

#獲取資料 - token和code

data = self.s.get(url, verify =false)

soup = beautifulsoup(data.content, "

html.parser

", from_encoding="

utf-8")

tokencode ={}

try:

t = soup.find_all("

script

")[1].get_text()

tokencode[

'x_anti_forge_token

'] = re.findall(r"

token = '(.+?)'

", t)[0]

tokencode[

'x_anti_forge_code

'] = re.findall(r"

code = '(.+?)'

", t)[0]

return

tokencode

except

:

print("

get faild")

tokencode[

'x_anti_forge_token

'] = ""

tokencode[

'x_anti_forge_code

'] = ""

return

tokencode

defencryptpwd(self, passwd):

'''密碼加密

:param passwd: 原始密碼

:return: 加密密碼

'''passwd = hashlib.md5(passwd.encode("

utf-8

")).hexdigest() #

md5加密

passwd = "

veenike

" + passwd + "

veenike"#

veennike : js檔案 - 寫死的值

passwd = hashlib.md5(passwd.encode("

utf-8

")).hexdigest() #

md5加密

return

passwd

deflogin(self, user, password):

'''登入拉勾網

:param user: 使用者名稱

:param password: 密碼

:return:       登入成功 - 服務資訊

'''#

獲取資料 - token和code

tokencode =self.gettoekncode()

print

(tokencode)

#密碼加密

password =self.encryptpwd(password)

print

(password)

#更新資料 - 頭部資訊

url = "

"head =

self.s.headers.update(head)

#登入**

body =

r = self.s.post(url, data=body, verify=false)

try:

print

(r.text)

return

r.json()

except

:

print("

login faild: %s

" %r.text)

return

none

if__name__ == "

__main__":

s =requests.session()

lgw =loginlgw(s)

lgw.login(

"user

", "password

")

d45ef25791078e956e6915ba194d776a

,"message

":"操作成功

","state

":1,"

submitcode

":76585064,"

submittoken

":"1e756b35-4bbe-4853-b1b8-767042f86771

"}

python之Bs4的使用

bs4是乙個可以幫助我們快速解析文件,獲取我想要的標籤和內容的第三方庫 beautifulsoup用來解析html等文字格式 引入bs4和re html.parser指定乙個解析器,代表解析html文件嗎,因為beautifulsoup不僅僅可以解析html,其他的一些文件格式也可以解析 bs be...

requests和bs4的python爬蟲入門

現在就簡單的講下這幾個月的學習成果嘛 爬蟲其實爬的都是源 然後再通過對源 進行過濾,得出我們想要的東西 有時會需要一些正則的東西 這裡面有一些lazyload的,就需要 selenium webdriver 什麼的了,這個還沒研究到哈,勿噴勿噴。上面的答案也有提到過,用requests和bs4寫爬蟲...

python爬蟲資料解析之bs4

步驟 1 匯入bs4庫 from bs4 import beautifulsoup2 獲取soup物件 html為你獲取的網頁源 將html轉化為特定的格式lxml 為後面提取資訊做準備 soup beautifulsoup html,lxml 3 利用方法選擇器解析 find all 查詢所有符合...