爬蟲的一點經驗

2021-07-31 00:08:42 字數 653 閱讀 9612

1.寫乙個網頁爬蟲的時候遇到了乙個div巢狀問題,即乙個大的div裡面有很多小的div,如:

***

***xx

***x

這樣乙個型別,如果爬取內層的div是很簡單的,正規表示式十分好寫:

"/(.*?)<\/div>/"

但是如果要爬取外面的div該怎麼辦呢?

當時我的做法是繼續尋找,找出該段內容後面的具有識別該段內容能力的內容。

如上式,在正規表示式中加入對id為comment的p標籤的檢索:

"/(.*?)<\/div>[\\s]*/"

2.當在爬取網頁的時候,獲得的html內容肯定有空格、換行、製表符之類的內容,這樣的內容對正規表示式很不友好。

遇到這樣的網頁,該如何爬取呢?

我的做法是在獲取到該網頁的html內容時,將其進行這些空白字元的替換。在php中,對整個網頁進行字元替換如下:

str_replace(array(" ","\n","\t"),"",$html);
上述只是乙個方式,而且並不是最高效的。意圖說明這樣一種處理問題的方法。

mysql一點經驗

今天看了下mysql5的英文手冊,雖然只看了一點點,還是要分享一下其中比較實用的東西。為了方便大家學習,舉出下面給出一些例子。大家看著用就行了。特別是被很多程式設計師忽略的mysql變數,那可真是個好東西呀。1 時間操作 表名 table 字段 birth 格式1989 05 13 根據年紀計算歲數...

學習 iOS Autolayout的一點經驗

以下是最近在學習autolayout的過程中學到的一些東西,全出於自己的理解,不對的地方望大家指出。對於普通的檢視uiview來說,想要正確完成檢視的布局,就得建立足夠的約束,普通檢視無法計算自身的寬高,所以在建立約束時,要麼新增關於檢視寬高的約束,要麼新增足夠的其他約束,保證這些檢視可以計算出自身...

雜談學習的一點經驗

在面對乙個新的東西時,首先要甄別學習的目的和價值。我們要能判斷是不是值得學習,或者說我學了會不會它之後,會不會用到。如果是要學,需要怎麼學?學到什麼程度。有的只是需要了解,知道就行,不需要花費太多時間。有的需要掌握原理,需要專心投入時間和精力研究。在確定要學習後,就要想方設法讓自己知其然,也要知其所...