01 爬蟲入門

2022-02-20 18:45:14 字數 1131 閱讀 2925

模擬瀏覽器請求網頁資料(獲取html)

提取資料(從html中提取資料)

精煉資料(規範格式,如除空格)

業務實現(對精煉後的資料作需要的處理,如排序)

程式入口

舉個例子:

from urllib import request

import re

# 貴州人才資訊網招聘崗位的抓取

class spider():

# 目標所在特徵字串,組中的內容即為目標:招聘崗位

root_pattern = 'name="thiszw" href="[\s\s]*?" target="[\s\s]*?" title="([\s\s]*?)"'

# 模擬網頁請求返回網頁資料

url = ""

def __fetch_content(self):

headers =

page1 = request.request(spider.url, headers=headers)

htmls = request.urlopen(spider.url).read()

htmls = str(htmls, encoding="gbk")

return htmls

# 資料提取

def __analyse(self, page):

job_name = re.findall(spider.root_pattern, page)

return job_name

# 業務處理

def __show(self,job_list):

for rank in range(0,len(job_list)):

print('no.'+str(rank+1)+' : '+job_list[rank])

def go(self):

page = self.__fetch_content()

result = self.__analyse(page)

self.__show(result)

if __name__ == '__main__':

spider = spider()

spider.go()

beautiful soup

scrap

爬蟲入門 01 爬蟲基礎了解

爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的乙隻蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...

python爬蟲學習 01爬蟲介紹

前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...

python爬蟲筆記01

精通python網路爬蟲 筆記 下面 大部分來自此書,僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案 示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部,賦予...