學習使用re做解析器爬小說

2022-06-25 14:36:15 字數 675 閱讀 5953

一、背景:近期學習python爬蟲中看到,在對網頁內容進行解析的技術中,re正規表示式工具也是乙個很好的工具,使用re編制爬蟲工具正好熟悉re正規表示式的使用。

二、環境及爬取目標

1、linux centos7系統

2、****: ,**名稱《漢鄉》。

三、爬取思路

1、爬取目錄頁面,獲得章節鏈結和標題list列表檔案

2、根據章節鏈結和標題list列表檔案內容,逐一爬取**各章節,並寫入預設檔名。

四、**實現(**檔名:test7.py)

#-*- coding:utf-8 -*-

import requests

import re

#通過目錄頁面獲取**各章節鏈結和標題列表

url="/"

html=requests.get(url).content.decode("utf-8")      #獲取目錄頁面內容

#print(html)

catalog=re.findall('(.+?)

', html, re.s)    #返回章節鏈結和標題list列表檔案,其中?表示使用非貪婪模式。

#print(catalog[0], catalog[len(catalog)-1])    #測試顯示起始和結束章節的鏈結和標題

五、執行:

......

使用解析器

使用解析器 使用解析器是非常簡單,可以使用它自己的詞法分析器,但是,用fsyacc.exe 產生的解析器總是要求詞法分析器。在這一小節,我們將討論如何使用自己的詞法分析器,以及與解析器聯合。警告記住f 編譯器不能直接使用.fsl 和 fsy 檔案,需要用fslex.exe 和 fsyacc.exe ...

指令碼解析器

指令碼解析器 命令指令碼解析器,自建立一種指令碼語法,解釋執行它。目前指令碼形式類似於命令,沒有變數型別的概念,關鍵字為 if else while break continue 解釋與c語言一樣。上傳 型別 無型別,全為字串看待。作用域 當前大括號中,以及所有子大括號中,退出當前大括號則清除變數。...

網頁解析器

學習任務 1.認識網頁解析器 學習目標 知識目標 1.熟悉網頁解析器 能力目標 1.能夠自主編寫網頁解析器 獲取新url函式 獲取新的url def get new urls self,page url,soup 儲存url new urls set 獲取所有的url 獲取每乙個url new ur...