爬蟲出現空列表或者長度為0是怎麼回事?

2021-08-21 14:55:08 字數 649 閱讀 2906

今天來總結一下在爬蟲遇到的特殊情況,利用正則或者xpath來匹配提取資料,偶爾會發現可以找到這個物件,卻無法提取它的下一階層的資料,這是怎麼一回事?

自己分析結果有以下幾種:

(1)自己的匹配寫錯了,怎麼可能,我再三檢查,對的不能再對了,排除這種情況,畢竟是本寶寶寫的,誰還沒有點小自信了。

(2)可能是user-agent瀏覽器版本不相容,遇到這種情況要注意了,先檢查一下自己爬取的資料,看看是不是被注釋了,這是一種簡單反爬技術,哼,這能難倒我?天真!解決辦法:1去掉user-agent2更換ie的user-agent,可惜我還是沒能解決,那麼就只能是第三種情況了

第二種情況如下:

在瀏覽器檢查元素,可以清楚的看到自己想要爬取的資料,就在那就在那,看的見摸不著,再看看自己爬下來的資料,居然變成空的了,哼,今天本寶寶鐵了心也要爬下來,我直接複製網頁源**還不行嗎?

哎,主要自己太菜了,只能將要爬取的內容複製下來,然後提取,這真是一次失敗的爬蟲經歷 !嗚嗚嗚

python空列表新增 Python列表的簡單操作

python列表的簡單操作 2.在列表中新增元素 sth.insert 位置,元素 3.從列表中刪除元素 1 del sth 元素位置 2 pop的元素名 sth.pop 元素位置,不填則預設列表末尾 類似於彈出棧頂 3 sth.remove 元素的值 該方法無需知道要刪除的元素的位置,但只刪除第乙...

python定義空列表fruit python列表

1.建立列表 列表中的項總是用 括住。建立空列表 fruit 列表中乙個項的位置叫做索引,如果想要獲取列表中的某一項,需要提供索引的編號 索引從0開始 如 fruit 0 如果使用乙個超過最大索引的索引編號,python將丟擲乙個錯誤,並且程式停止執行,錯誤資訊如下 traceback most r...

爬蟲,html為空的問題

如下 from urllib import request dapeng url headers req request.request url dapeng url,headers headers resp request.urlopen req print resp.read decode ut...