簡單的爬蟲

2022-09-03 12:33:07 字數 1624 閱讀 6315

好久沒有上傳新的部落格了,上上週寫出了爬蟲,但是因為偷懶和末考,一直到今天才回來寫有關這個爬蟲的部落格。

原來不了解爬蟲的時候感覺爬蟲好高大上啊,做了之後才發現......哦,好簡單......

還有,在這裡要感謝一下虎撲大大,感謝他沒有封我的ip......

其實爬蟲很簡單,用到了httpclient還有htmlparser......

對httpclient(基於jdk的httpconnection)不是很了解,這裡不細說只是用一下[尷尬]。使用htmlparser解析html的頁面,基於jsoup解析頁面。

jsoup很方便,可以直接使用jquery的標籤在頁面中查詢我們所需要的資料

1

public

static

void main(string args) throws

ioexception

19 element atag = tr.select("td").get(2).select("a").get(0);

20 string ahref = atag.attr("href");

21//

進入當前頁,爬取我所需要的table資訊。

22 string datahtml = hc.get(ahref,"utf-8");

23//

將獲取到的datahtml(**資料頁)轉換成document

24 document datadoc =htmlparser.parse(datahtml);

25//

獲取當前頁裡的body標籤(這裡得到的其實是乙個集合)

26 elements databodys = datadoc.getelementsbytag("body");

27//

list.get()方法獲取到集合中的元素,即body標籤裡的內容

28 element databody = databodys.get(0);

29//

獲取到body中所有的tr標籤(當然這裡也是集合)

30 elements datatrs = databody.select("tr");

31//

foreach便利所有的tr標籤

32for

(element datatr:datatrs)

37 element datatd = datatr.select("td").get(0).select("a").get(0);

38//

獲取到文字內容

39 string datatdtext =datatd.text();

40system.out.println(datatdtext);41}

42}43 }

在乙個element裡.select()就可以獲取到你想要獲取的class或id或者是html標籤,.text().attr().html()都可以獲取裡面我們想要獲取到的資訊。

這就是簡單的爬蟲,沒有啥演算法,沒有難點,有的只是找規律,自己去思考到底要如何解析你想要解析的頁面資訊。

簡單的爬蟲

參考xlzd的知乎專欄 encoding utf 8 from bs4 import beautifulsoup import requests import codecs download url requests模擬http協議中的get請求,用於獲取目標 的原始碼 def download p...

簡單的爬蟲

這幾天來一直在做爬蟲的工作,除了因為開始因為不熟悉爬蟲所以學的時候比較花時間之外,其他大多數時候都還是比較順利,中間除了遇到xpath的問題,其他就還好。就我目前的理解而言爬蟲總共是分為三個步驟。1.通過url獲取網頁 2.獲取網頁之後對網頁進行解析 3.將解析之後需要的內容存貯起來 獲取網頁 這一...

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...