入門python爬蟲

2021-10-02 18:26:48 字數 2687 閱讀 3648

網上找了好多關於爬蟲的例子,不過還是對新手不是很友好的,這裡記錄一下自己弄爬蟲的一些過程。

這裡是我想吐槽的,有很多例子它都是以乙個特定的**為例子的,我們如果按照它的步驟一步一步走下去我們是可以成功的,不過這對於我們學習爬蟲來說並沒有什麼較多的幫助的。

1.掌握html

我覺得這是學會爬蟲必須要掌握的,爬蟲其實就是模擬瀏覽器的各種請求,獲得到我們想要的資料,而在對於我們來說最容易獲得的就是頁面的html內容。通過檢查我們可以檢視到文章的整體結構,這對於我們後續的資料篩選是非常有幫助的。

2.掌握通過瀏覽器捕獲資料

通過右鍵檢查進入到瀏覽器network模組,觀察瀏覽器傳送的xhr,js,doc請求其中我們想要的檔案基本都在這些請求中可以捕獲到,找對我們想要的請求後就可以在python中進行模擬。

3.掌握headers以及get,post方法

這些內容我們可以在檢查中獲得,當然如果能進一步了解就更好了

4.掌握python中關於爬蟲的類庫

這對將來提高你的開發效率是非常有幫助的,入門階段不推薦過多使用

掌握上面的這些爬取一些簡單的東西都是沒有問題的,不過對於一些需要登入等操作的**內容的爬取,則需要對cookie等內容有一定了解。

1.通過檢查網頁,檢測請求獲得我們需要模擬的介面2.通過python模擬請求3.處理獲得的資料

這裡只是簡單將其爬取之後轉成了html儲存

爬取思路:**的爬取一般比較簡單,我們可以直接在html文件中獲得我們想要的資料,這樣就使得我們不要在通過複雜的network模組去找到我們需要資料的介面,我們只需要通過get方法請求瀏覽器位址,通過

resp.content.decode('gbk')
import requests  # 匯入requests庫,需要安裝

from urllib import parse

import re

# 模擬成瀏覽器訪問的頭

'accept': 'text/html',

'accept-language': 'zh-cn,zh;q=0.9'}

mianurl = ""

def getpage(mianurl,nexturl,i,oldpage):

jump = 0

try:

resp = requests.get(mianurl+nexturl, headers=headers)

jump = 0

except:

jump = 1

if jump == 0:

# 獲取到當前頁面內容

htmltext = resp.content.decode('gbk')

pageurl = "青春豬頭少年不會夢到兔女郎學姊"+str(i)+".html"

nextpages = "./青春豬頭少年不會夢到兔女郎學姊"+str(i+1)+".html"

uppage = "./青春豬頭少年不會夢到兔女郎學姊"+str(i-1)+".html"

try:

print("上:" + oldpage)

oldpage = nexturl

breaks = 0

try:

nextpage = re.search(r'"[/a-za-z0-9.=\s_]*"', nextpage.group())

nexturl = nextpage.group()[1:-1]

print("下:" + nexturl)

except:

breaks = 1

fo = open("./books/book1/"+pageurl, "w+", encoding="gbk")

fo.write(htmltext)

fo.close()

print("繼續"+str(i)+":"+pageurl)

i += 1

if breaks != 1:

getpage(mianurl,nexturl,i,oldpage)

else:

print("success")

except exception as e:

print(str(e)+"結束")

else:

print("請求異常重新請求"+str(i))

getpage(mianurl, nexturl, i, oldpage)

nowpage = "/book/671/24853764.html"

getpage(mianurl,nowpage,352,"nooldpage")

Python爬蟲入門

今天看了菜鳥教程的python教程,準備做個小作業寫個爬蟲程式。其中主要涉及到基本語法 正規表示式 urllib和re兩個模組。import urllib 載入模組 import re defgethtml url page urllib.urlopen url html page.read ret...

python爬蟲入門

這幾天閒的無聊想做乙個爬蟲來爬取一些 正經 首先選擇用python作為爬蟲的語言。但是沒有接觸過python怎麼辦呢,只能從頭開始學了。python學習位址這個是廖大神寫的乙個python入門,個人感覺寫的非常不錯,在粗略的學習了一遍之後感覺可以開始我的爬蟲之旅了。目標 抓取中妹子的儲存在本地 接下...

python爬蟲入門

初學者要學會基本的爬蟲 先要安裝包requests requests的安裝 開啟這個 在這個 上面有很多 python 的第三方庫檔案,我們按 ctrl f 搜尋很容易找到 requests 如下圖,我們將第乙個資料夾,也就是 requests 資料夾複製到 python 的安裝目錄下的 lib 目...