簡單的爬蟲

好久沒有上傳新的部落格了，上上週寫出了爬蟲，但是因為偷懶和末考，一直到今天才回來寫有關這個爬蟲的部落格。

原來不了解爬蟲的時候感覺爬蟲好高大上啊，做了之後才發現......哦，好簡單......

還有，在這裡要感謝一下虎撲大大，感謝他沒有封我的ip......

其實爬蟲很簡單，用到了httpclient還有htmlparser......

對httpclient（基於jdk的httpconnection）不是很了解，這裡不細說只是用一下[尷尬]。使用htmlparser解析html的頁面，基於jsoup解析頁面。

jsoup很方便，可以直接使用jquery的標籤在頁面中查詢我們所需要的資料

1
public
static
void main(string args) throws
ioexception 
19 element atag = tr.select("td").get(2).select("a").get(0);
20 string ahref = atag.attr("href");
21//
進入當前頁，爬取我所需要的table資訊。
22 string datahtml = hc.get(ahref,"utf-8");
23//
將獲取到的datahtml（**資料頁）轉換成document
24 document datadoc =htmlparser.parse(datahtml);
25//
獲取當前頁裡的body標籤（這裡得到的其實是乙個集合）
26 elements databodys = datadoc.getelementsbytag("body");
27//
list.get()方法獲取到集合中的元素，即body標籤裡的內容
28 element databody = databodys.get(0);
29//
獲取到body中所有的tr標籤（當然這裡也是集合）
30 elements datatrs = databody.select("tr");
31//
foreach便利所有的tr標籤
32for
(element datatr:datatrs)
37 element datatd = datatr.select("td").get(0).select("a").get(0);
38//
獲取到文字內容
39 string datatdtext =datatd.text();
40system.out.println(datatdtext);41}
42}43 }

在乙個element裡.select()就可以獲取到你想要獲取的class或id或者是html標籤，.text().attr().html()都可以獲取裡面我們想要獲取到的資訊。

這就是簡單的爬蟲，沒有啥演算法，沒有難點，有的只是找規律，自己去思考到底要如何解析你想要解析的頁面資訊。

簡單的爬蟲

參考xlzd的知乎專欄 encoding utf 8 from bs4 import beautifulsoup import requests import codecs download url requests模擬http協議中的get請求，用於獲取目標的原始碼 def download p...

簡單的爬蟲

這幾天來一直在做爬蟲的工作，除了因為開始因為不熟悉爬蟲所以學的時候比較花時間之外，其他大多數時候都還是比較順利，中間除了遇到xpath的問題，其他就還好。就我目前的理解而言爬蟲總共是分為三個步驟。1.通過url獲取網頁 2.獲取網頁之後對網頁進行解析 3.將解析之後需要的內容存貯起來獲取網頁這一...

python爬蟲簡單 python爬蟲簡單版

學過python的帥哥都知道，爬蟲是python的非常好玩的東西，而且python自帶urllib urllib2 requests等的庫，為爬蟲的開發提供大大的方便。這次我要用urllib2，爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

簡單的爬蟲

簡單的爬蟲

簡單的爬蟲

python爬蟲簡單 python爬蟲 簡單版

相關推薦

python爬蟲簡單 python爬蟲簡單版