爬蟲實現對於百度文庫內容的爬取

2021-10-13 05:28:05 字數 2444 閱讀 9335

# coding =utf-

8import tkinter as tk

import re # 正規表示式

import urllib

import requests

window = tk.tk(

)url =

""window.

title()

window.

geometry

('500x300'

)basenum = tk.

label

(window, text=

'請輸入**:'

)basenum.

pack()

base_text = tk.

strin**ar()

base = tk.

entry

(window, textvariable=base_text)

base.

pack()

def ***x()

:print

("wo you shuchu"

) url = base_text.

get(

) content_list =

kaishi

(url)

f =open

(r'c:\users\administrator\desktop\123.txt'

,'a+'

)for i in

range(0

,len

(content_list)):

f.write

(str

(content_list[i]))

print

("***xx"

)print

(str

(content_list)

)def main()

: tk.

button

(window, text=

"生成桌面檔案"

, command=***x)

.pack()

tk.button

(window, text=

"退出1"

, command=window.quit)

.pack()

window.

mainloop()

findgupiao = re.

compile

('">(.*?)')

def kaishi

(url)

: headers =

request = urllib.request.

request

(url, headers=headers)

html =

""try

: response = urllib.request.

urlopen

(request)

html = response.

read()

.decode

('unicode_escape'

) except urllib.error.urlerror as e:

ifhasattr

(e,"code"):

print

(e.code)

ifhasattr

(e,"reason"):

print

(e.reason)

content_list=

content_list = re.

findall

('"c":"(.*?)","p"'

, html)

return content_list

# with

open

("rsp.html"

,"w+"

, encoding=

"utf-8"

)as f:

# f.

write

(session.

get(url1)

.text)

if __name__ ==

"__main__"

:main

()

如果庫都有的話,會生成這樣的介面

這裡需要注意的是輸入的**必須是你通過抓包獲得的url

類似於這樣的

中的 request url:

然後會在桌面生成乙個123.txt檔案,裡面就是你需要爬取的內容了

當然如果有很多頁你也需要複製很多個url,這個問題暫時水平有限解決不了,以後水平提高再來繼續改進把

利用爬蟲爬取百度貼吧內容

coding utf 8 識別中文注釋的意思 import urllib.request 匯入urllib包中的request模組,主要是獲取網頁內容 def load page url 傳送url請求 返回url請求的靜態html頁面 user agent mozilla 5.0 windows ...

爬蟲實踐 爬取百度貼吧內容

貼吧位址 python版本 3.6 瀏覽器 chrome 從網上爬下特定頁碼的網頁 對於爬下的頁面內容進行簡單的篩選分析 找到每一篇帖子的 標題 發帖人 發帖時間 將結果儲存到文字。二 分析 位址中這些都是中文字元,e7 94 9f e6 b4 bb e5 a4 a7 e7 88 86 e7 82 ...

python爬蟲 之 爬取百度首頁

剛開始學習爬蟲,照著教程手打了一遍,還是蠻有成就感的。使用版本 python2.7 注意 python2的預設編碼是ascii編碼而python3預設編碼是utf 8 import urllib2 url response urllib2.urlopen url print response.rea...