爬蟲套路,快速入手

2021-10-20 01:13:21 字數 2170 閱讀 1223

這裡不講知識點,直接把爬蟲套路寫出來,可以直接上手

#第一步引入要使用的庫函式

import requests #這個庫引入用於請求,很常用

from lxml import etree #xpath解析要引用的庫

'''假如引入庫後報錯,開啟終端 pip install ***(缺少的庫函式)

pip install lsxl -i --trusted-host pypi.douban.com

'''#第二步寫上到要爬取**的的url和用於偽裝的headers

url=

''#(裡面是你要爬取的**)

headers=

#在你要爬取的**那按f12,點network 然後選乙個鏈結-->headers**可以找到user-agent和referer如下圖

#第三步傳送get請求並用etree對響應進行處理

response=request.get(url,headers=headers)

e=etree.html(response.text)

#對獲取的response的text處理

#第四步用xpath的谷歌外掛程式可以開始無腦爬資料了

data=e.xpath('')

print

(data)

#可以列印出爬出到的資料

​ 圖一

​ 圖二

你只需要開啟xpath外掛程式後,滑鼠對準你想爬的資料後按shift會自動幫你解析出query,你只需複製貼上下後放到e.path("")中即可(注意這裡用""而不是』』)但它自動解析出來的太仔細太長了,我們一般把第乙個/與最後乙個/div

中間去掉,如

/html[@class='loaded']/body[@id='-1']/div[@class='wrap']/div[@class='rank-box box-center cf']/div[@class='main-content-wrap fl']/div[@class='rank-body']/div[@id='rank-view-list']/div[@class='book-img-text']/ul/li[1]/div[@class='book-mid-info']/h4/a

#這是xpath自動解析得到的作者名的解析

我們只取//div[@class='book-mid-info']/h4/a這一部分,如果要得到的是文字值還要再加上/text()

即//div[@class='book-mid-info']/h4/a/text()

#一

import requests

from lxml import etree

#二url=

''headers=

#三response=requests.get(url,headers)

e=etree.html(response.text)

#四names=e.xpath(

"//div[@class='book-mid-info']/h4/a/text()"

)#這裡在最後麵加了/text()表示解析出文字。

authors=e.xpath(

"//div[@class='book-mid-info']/p[@class='author']/a[@class='name']/text()"

)for name,author in

zip(names,authors)

:print

('**名:'

JSON快速入手

慢慢看不要急 假如這是返回的json串 1 建立乙個jsonobject物件 實體類 public class bean s 格式的生成 我這裡是通過實體類去操作的 如果不需要可以通過jsonobject中的put方法去實現 bean bean new bean 1 建立乙個實體類物件 listca...

簡單快速入手hdfs

為什麼會存在這篇文章,是因為我產生了以下問題,為了理清關係並解決疑惑。什麼是hdfs?需要搭建什麼樣的環境?hdfs只是乙個名詞,還是需要人為的去搭建環境?很多文章都在說hdfs的原理,我就想知道需不需要我去搭建?來自hadoop官網的截圖 簡單點,hadoop處理大資料,那麼必然面對資料的儲存問題...

Docker快速入手實戰筆記

快速上手使用docker,師兄給了乙個任務是打包乙個安裝好libfuzzer的docker映象,然後我沒有用過docker,師兄說很快,看一下就會用了,經過摸索確實如此。這裡用ubuntu系統下的docker安裝為例,其他系統大同小異。換雲服務商 curl ssl sh 安裝所需要的包 sudo a...