Python 第一次爬蟲實戰 爬百度貼吧的小例子

2021-09-24 03:57:37 字數 1201 閱讀 1249

**如下:

跟著我要自學網的《python爬蟲課程》學習的。

import urllib

from urllib import request

import time

from builtins import str

#構造請求頭資訊

header=

#分析url特點

# #第一頁

# #第二頁

# #第三頁

def loadpage(fullurl,filename):

req=request.request(fullurl,headers=header)

resp=request.urlopen(req).read()

return resp

def writepage(html,filename):

print("正在儲存:",filename)

with open(filename,"wb") as f: #"wb"表示二進位制,以二進位制的形式寫入

f.write(html)

print("---------------------------------------")

def tiebaspider(url,begin,end):

for page in range(begin,end+1):

pn=(page-1)*50

fullurl=url+"&pn="+str(pn) #每次請求的完整url

filename="e:/第"+str(page)+"頁.html" #每次請求後儲存的檔名

html=loadpage(fullurl,filename) #呼叫爬蟲,爬取網頁

writepage(html,filename) #把獲取到的網頁資訊寫入本地

if __name__=="__main__":

kw=input("請輸入貼吧名:")

begin=int(input("請輸入起始頁碼:"))

end=int(input("請輸入結束頁碼:"))

url=""

key=urllib.parse.urlencode()

url=url+key

tiebaspider(url, begin, end)

time.sleep(10)

爬蟲第一次

由於面試的需要,昨天看了下爬蟲,python的,原先一直以為很高階,但是才發現大體思路很清晰。1。連線到要抓取的某網 注意import urllib,比如這個樣子 def gethtml url page urllib.urlopen url html page.read return html 這...

第一次爬蟲

from bs4 import beautifulsoup import requests import time def get item info url 如何從詳情頁裡面要爬取的內容 url wb data requests.get url soup beautifulsoup wb data...

第一次除錯python爬蟲

建立檔案 vi pic down.py 執行 pic down.py 報錯 permission denied 解決 chmod a x pic down.py 執行 pic down.py 報錯 pic down.py line 1 import command not found 解決 在頭部加...