爬蟲流程複習

2022-06-19 12:27:08 字數 1525 閱讀 8239

爬取資料之後:

新聞聚合閱讀器

最漂亮美女網

圖書**對比網

python技術文章大全

設定爬蟲終端:

url 管理器判斷爬取網頁鏈結

流程: 排程器詢問 url 管理器,是否存在要爬取的 url

url 管理器返回 是或否

排程器 從 url 管理器中 取出乙個 url

url 管理器 將 url 傳遞給排程器

解析器解析後傳遞給排程器

此時可以收集價值資料 排程器再將需要爬取的 url 傳遞給 url管理器 一直到沒有需要爬取的 url

url 管理器:

管理待爬取的 url 集合和已經爬取的 url 集合

使用管理器是為了防止重複抓取和防止重複抓取乙個 url

url 功能:

新增新的 url 到待爬取的集合中

確定待新增的 url 是否在 url 中

獲取待爬取的 url

將 url 從待爬取的移動到已爬取的集合中

判斷是否還有待爬取的資料

url 管理器實現方式:

將 待爬取的 和 已爬取的 url 儲存在集合中

set()

將 url 儲存在 關聯式資料庫中,區分 url 是待爬取還是已經爬取

mysql urls(url,is_crawled)

快取資料庫 redis

將 url 對應的網頁轉換為 html 資料

儲存到本地檔案或者記憶體字串中

特殊情景處理器:

需要使用 cookie 訪問時:httpcookieprocessor

需要使用 ** 訪問時:proxyhandler

需要使用 加密 訪問時:httphandler

網頁存在跳轉關係訪問時:httpredirecthandler

網頁解析器:

從網頁提取有價值的資料

html 網頁文件字串

提取出價值資料

提取出新的 url 列表

正規表示式 ->模糊匹配

文件作為字串,直接匹配

html.parser

beautifulsoup ->可以使用 html.parser 和 lxml

從 html 和 xhtml 中提取資料

語法:建立 beautifulsoup 物件

搜尋節點 findall find

訪問節點(名稱,屬性,文字)

lxml

->結構化解析

dom 樹

進行上下級的遍歷

html

head

title

文字body

ahref

文字div

文字爬蟲: 確定目標

分析目標

url 格式

資料的鏈結

資料的格式

網頁編碼

編寫**

執行爬蟲

2020-04-12

爬蟲流程複習3

111.requests.get 方法的流程 r requests.get content.decode utf 8 從狀態碼到 二進位製碼到 utf 8編碼 112.對 soup 物件進行美化 html soup.prettify 113.將內容 string 化 html.xpath strin...

考研複習流程

這個階段就是打基礎 打基礎 打基礎。不要想著去做試卷刷題,先把基礎知識點掌握好。英語多背單詞多閱讀,數學學好知識點,做基礎鞏固習題,政治大致過一遍,對理解性的知識點先理解,不用急著背誦。專業課也是看書為主。6月底,大家需要過一遍基礎,結束第一輪複習。可以考慮全年營或者也有體驗營可以了解下。暑假這一段...

爬蟲學習 爬蟲基本流程

標籤 空格分隔 資料探勘 爬蟲 1 發起請求 2 獲取相應內容 3 解析網路內容 4 儲存資料 結構化儲存 user server request server user response 1 請求方式 get,post,head,put,delete 2 get和post的區別 請求的引數包含的部...