2019 9 18練手爬蟲日記

今天找了乙個國外的**練手，頁面不是很難，就類似於主頁面下面有很多子頁面，使用火狐瀏覽器+xpath helper ，一切都像平時那樣的隨意，一切都很平常，但是在執行的時候將解析出來的資料進行列印，毫不猶豫的給到我了4個【】 ,ok沒關係，**出錯了還好，接下來就從介面開始一點點的分析，沃德天，和我開始分析的一模一樣，接下來開始質疑是不是js，沃德天，這個渣渣**根本不是js，每個都是get方式，ok繼續分析，沃德天，搞不出來了，那就問別人。

找了乙個爬蟲的群然後丟**，丟問題，丟**，丟自己嘗試過的方式，丟自己目前的思路（這其實是提問的一種藝術）

裡面先來了兩個小白，居然質疑我的xpath解析式，我明明取的是@href ,他們居然告訴我要改成//text()，沃德天，謝謝你倆

後面來了乙個應該和我差不多風采的，也許技術比我強那麼一點點，但是他覺對沒有我帥！

他使用的是這樣的：//a[contains(@href,'.aspx')]/@href

contains()方法，檢視了下xpath官方文件

帶圖的是這樣的，不帶圖的是下面這樣：

contains()函式當其第乙個字串引數

包含有第二個字串引數時返回 true.

說的太官方了，接著我按照大佬的解析式，去原文檢視了下對應的結果，

發現是不太滿意，因為aspx結尾的鏈結全搞進來了，並不是我想要的那塊的鏈結，沒關係繼續研究，

突然有一股力量衝進了我的大腦，拿著瀏覽介面的內容去對比下網頁原始碼，很好，看到乙個了不得的東西。

這是瀏覽介面，也就是xpath helper解析的那個。

接下來是原始碼介面：

完全沒有tbody這個鬼東西，沃德天，接下來按照原始碼去解析，成功拿到需要的東西。

最後總結一點：看到的不一定就是真的。保持理性的頭腦，無時無刻你都是最帥的男人！

2019 9 18練手爬蟲日記

實習日記 2019 9 18

爬蟲學習日記

python 爬蟲日記

2019 9 18練手爬蟲日記

實習日記 2019 9 18

爬蟲學習日記

python 爬蟲日記

相關推薦