網路爬蟲介紹 待完善

2021-07-09 17:07:52 字數 390 閱讀 7189

寫在前面的:

最近幫一人朋友寫乙個快遞訂單查詢的軟體,先在網上找各種api介面,好多都是要花錢購買服務才行,

後來看到乙個新**「

十顆心」不要錢的(估計是在推廣期)。

按這個寫好軟體之後,朋友發現有一些資訊沒有。就開啟了dhl官網給我看需要哪些東西。我才想到怎麼不自己去爬呢?後面開始了探索之路。

大神:爬蟲的基本思路如下 

1. 根據 url 獲取相應頁面的 html **  

2. 利用正則匹配或者 jsoup 等庫解析 html **,提取需要的內容 

3. 將獲取的內容持久化到資料庫中 

4. 處理好中文字元的編碼問題,可以採用多執行緒提高效率

diff命令 待完善

diff命令在最簡單的情況下,比較給定的兩個檔案的不同。如果使用 代替 檔案 引數,則要比較的內容將來自標準輸入。diff命令是以逐行的方式,比較文字檔案的異同處。如果該命令指定進行目錄的比較,則將會比較該目錄中具有相同檔名的檔案,而不會對其子目錄檔案進行任何比較操作。來自 diff命令在最簡單的情...

頁面效能 待完善

本文是學習慕課網上課程前端跳槽面試必備技巧的學習筆記,便於之後複習。本文說明頁面效能的方法 資源壓縮合併,減少http請求 非核心 非同步載入 非同步載入的方式 非同步載入的區別 利用瀏覽器快取 很關鍵的一步 快取的分類 快取的原理 使用cdn 預解析dns 標籤在很多瀏覽器中預設開啟預解析 如果是...

Windows HOOK總結 待完善

安裝鉤子 hhook winapi setwindowshookex 1,鉤子型別 in int idhook,2,函式位址,即掛鉤型別事件發生時,系統應該呼叫的函式 in hookproc lpfn,3,標識乙個dll,這個dll中包含第二個引數表示的函式 例項控制代碼 in hinstance ...