2019 9 18練手爬蟲日記

2022-07-22 18:54:09 字數 1167 閱讀 8172

今天找了乙個國外的**練手,頁面不是很難,就類似於主頁面下面有很多子頁面,使用火狐瀏覽器+xpath helper ,一切都像平時那樣的隨意,一切都很平常,但是在執行的時候將解析出來的資料進行列印,毫不猶豫的給到我了4個【】 ,ok沒關係,**出錯了還好,接下來就從介面開始一點點的分析,沃德天,和我開始分析的一模一樣,接下來開始質疑是不是js,沃德天,這個渣渣**根本不是js,每個都是get方式,ok繼續分析,沃德天,搞不出來了,那就問別人。

找了乙個爬蟲的群然後丟**,丟問題,丟**,丟自己嘗試過的方式,丟自己目前的思路(這其實是提問的一種藝術)

裡面先來了兩個小白,居然質疑我的xpath解析式,我明明取的是@href ,他們居然告訴我要改成//text(),沃德天,謝謝你倆

後面來了乙個應該和我差不多風采的,也許技術比我強那麼一點點,但是他覺對沒有我帥!

他使用的是這樣的://a[contains(@href,'.aspx')]/@href

contains()方法,檢視了下xpath官方文件

帶圖的是這樣的,不帶圖的是下面這樣:

contains()函式當其第乙個字串引數

包含有第二個字串引數時返回 true.

說的太官方了,接著我按照大佬的解析式,去原文檢視了下對應的結果,

發現是不太滿意,因為aspx結尾的鏈結全搞進來了,並不是我想要的那塊的鏈結, 沒關係繼續研究,

突然有一股力量衝進了我的大腦,拿著瀏覽介面的內容去對比下網頁原始碼,很好,看到乙個了不得的東西。

這是瀏覽介面,也就是xpath helper解析的那個。

接下來是原始碼介面:

完全沒有tbody這個鬼東西,沃德天,接下來按照原始碼去解析,成功拿到需要的東西。

最後總結一點:看到的不一定就是真的。保持理性的頭腦,無時無刻你都是最帥的男人!

實習日記 2019 9 18

伺服器安裝cu4.3部署 簡單拓撲 交換機配置 通過交換機conselt口連線電腦,再用xshell進行配置 二層交換機 每台伺服器一共有四個網口 mgmt ceph int ext 連線二層交換機,因此交換機一共需要4個埠組,每個埠組三個埠。其中mgmt ceph設定為access口,int ex...

爬蟲學習日記

由於之前沒有python基礎,能不能跟上還是很慌的,但還是得盡力 1.檢視網頁robots協議,了解爬取需要遵守的規則 2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取 3.安裝scrapy 爬取 介面部分資訊 獲取書包搜尋介面的商品名稱和 import requests impor...

python 爬蟲日記

首先是三大問題,跟搞哲學的差不多 爬蟲是什麼 爬蟲能做什麼 怎麼學爬蟲 既然是學習,就要做好付出時間和精力在這上面的思想準備 如果是新手,更應該知道接觸新的知識可能會產生挫敗感!沒有一路坎坷,哪有累累碩果!言歸正傳,學習爬蟲技術,就需要知道他涉及的知識點,再根據自己的實際情況,劃重點,攻克難點,總結...