抓取網頁頁面資訊

2021-08-23 13:49:29 字數 743 閱讀 2154

不借助第三方工具(httpunit,htmlparse)

想獲得也個**的某個頁面的資訊,關鍵是能順利請求到該頁面。某些**進行加密和其他技術可以防止被抓,那就很難你得逞了。

請求連線方法

這樣就可以順利獲得 該關鍵字 在第幾頁的列表資訊了

做完這一步就可以通過解析要查詢的資訊了,比如公司資訊,招聘職位 .......

while (sc.hasnextline()) 

link = line.substring(sp + 9, ep);

string userlink = link;

url userurl = new url(site_base + userlink);

urls.add(userurl);

sp = line.indexof("}

其他**可以是get方式就更簡單了,建議用firefox的firebug檢視頁面源**可以方便查詢請求的方式,資訊。

private scanner openconnection (int i,string keyname)  catch (exception e) 

}

谷歌

private scanner openconnection (int i,string keyname,string link)  catch (exception e) 

}

網頁頁面渲染模式

另一外方便,有些比較現代的 採用了很多html5 css3等最新的網路標準,ie8這些老舊的瀏覽器是無法支援的,而其他非ie瀏覽器對這些標準支援程度都比較高。為了應對這樣的情況,所以國內很多網際網路公司推出了 雙核 瀏覽器。雙核 瀏覽器內部的兩個核心分別是ie核心和webkit核心。雙核 瀏覽器的兩...

網頁頁面自適應小結

這段時間調整了幾個頁面的自適應情況,採用的方式一般都是用js去動態獲取當前window的高和寬,然後再按實際情況根據比例去分配。例如下面的一段 var ww window width var wh window height var contenth wh 41 tree height conten...

網頁頁面的自適應

一.允許網頁寬度自動調整 自適應網頁設計 到底是怎麼做到的?其實並不難。首先,在網頁 的頭部,加入一行viewport元標籤。viewport是網頁預設的寬度和高度,上面這行 的意思是,網頁寬度預設等於螢幕寬度 width device width 原始縮放比例 initial scale 1 為1...