第一次爬蟲的經驗

2021-07-25 17:53:54 字數 1267 閱讀 5618

事先宣告哈,這不是什麼教程(博主也不會),只是記錄我自己的學習經歷中的點點滴滴,如果對讀者有一丁點的作用,我也會感覺很開心。

博主目前剛上大學,軟工專業的,對專案開發那是十分神往,然後進了大學就加入了乙個專案組,正準備大施拳腳,專案導師的第乙個任務就讓我傻眼了——做乙個爬蟲。要知道那時博主連python的語法還什麼都不懂……我突然感覺前途迷茫……

但是硬著頭皮也要上啊。任務是將安客居(的乙個頁面上的關鍵資訊抓取下來(用正規表示式)。

這些就是老師要求的關鍵資訊。

第一步呢,就是抓取網頁的原始碼。

我的第一次抓取網頁原始碼用的是直接呼叫urllib2的urlopen

**很簡單,但是我卻發現抓下來的原始碼竟然不完全……

然後我就在第一部上卡住了……

直到後來,我用了 使用瀏覽器身份來訪問,終於抓下來了

**如下:

其實為什麼**這樣子用,我也是一知半解……

第二步就是資料解析

然後我就盯著正規表示式看了乙個周……

乙個週後,我一臉蒙蔽地去找老師,然後老師就給我們講解了一下……

嗯……好像有點感覺了

我就回去敲啊敲,終於出來了……

廢話不多說(喂!你小子說的還不夠多嗎?)

接下來我要誤人子弟了:

正規表示式自己看把,我也不會……

經驗呢,就是找到所需資料的網頁標籤,然後分析它的格式,得到相應的正規表示式。

如果最後資料有點小瑕疵(明明是你沒抓好),就可以用字串的replace(re.sub應該可以的,但是不知道為啥替換後的資料有點問題……)再洗一下資料。

最後是整體的**:

第一次的爬蟲就到這裡了……雖然曲折,但是我相信這是必要的……

爬蟲第一次

由於面試的需要,昨天看了下爬蟲,python的,原先一直以為很高階,但是才發現大體思路很清晰。1。連線到要抓取的某網 注意import urllib,比如這個樣子 def gethtml url page urllib.urlopen url html page.read return html 這...

第一次爬蟲

from bs4 import beautifulsoup import requests import time def get item info url 如何從詳情頁裡面要爬取的內容 url wb data requests.get url soup beautifulsoup wb data...

記第一次爬蟲

出不來結果的時候,真是著急,期間犯了很多錯誤,這個過程痛苦並快樂著 哈哈哈哈哈,哈哈哈哈哈 import urllib.request import re import os url page urllib.request.urlopen url read page page.decode gbk ...