聚焦爬蟲的設計思路

2022-06-13 04:33:07 字數 1127 閱讀 9650

聚焦爬蟲的設計思路:

1.確定url, 發起請求, 獲取到響應

2.資料解析

3.資料持久化

requests模組傳送get請求

#

導包import

requests

url = '

'#res就是我們拿到的響應資料

res = requests.get(url=url, params)

響應資料的獲取方式

1.文字形式: res.text

2.json形式: res.json()

3.流形式: res.content

re模組解析資料

1.re.findall(r'正規表示式', 'str'): 結果以列表形式返回, 匹配整個字串

2.re.search(r'正規表示式', 'str'): 匹配到第乙個結果就返回, 返回的是乙個物件, 使用group取值, 如果未匹配到, 返回none

3.re.match(r'正規表示式', 'str'): 從字串的開頭進行匹配, 返回乙個物件, 使用group進行取值, 如果未匹配到, 返回none

資料持久化: mysql入庫

#

導包import

pymysql

#建立連線

conn =pymysql.connect(user, password, host, post, charset, database)

#建立游標

cursor =conn.cursor()

#構建sql語句

sql = "

insert into tname vaules ('%s', '%s', '%s')

"%(title, link, comment)

#執行sql語句

try:

cursor.execute(sql)

#提交事務

conn.commit()

except

exception as e:

print

(e) #回滾

conn.rollback()

通用爬蟲和聚焦爬蟲

通用爬蟲是搜尋引擎抓取系統 baidu,goole,yahoo等 的重要組成部分 搜尋引擎網路爬蟲的基本工作流程如下 第一步 抓取網頁 1,首先選取一部分的種子url,並將這些url放進抓取url佇列 3,分析已抓取url佇列中url,分析其中的其他url,並將url放入待抓取1url佇列 從而進入...

通用爬蟲和聚焦爬蟲

根據使用場景,網路爬蟲可分為 通用爬蟲 和 聚焦爬蟲 兩種。一 通用爬蟲 二 通用搜尋引擎 search engine 工作原理 通用網路爬蟲 從網際網路中蒐集網頁,採集資訊,這些網頁資訊用於為搜尋引擎建立索 引從而提供支援,它決定著整個引擎系統的內容是否豐富,資訊是否即時,因此其效能的優劣直接影響...

聚焦爬蟲工作原理

1 聚焦爬蟲工作原理及關鍵技術概述 相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題 1 對抓取目標的描述或定義 2 對網頁或資料的分析與過濾 3 對url的搜尋策略。抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供...