爬蟲套路，快速入手

這裡不講知識點，直接把爬蟲套路寫出來，可以直接上手

#第一步引入要使用的庫函式
import requests #這個庫引入用於請求，很常用
from lxml import etree #xpath解析要引用的庫
'''假如引入庫後報錯，開啟終端 pip install ***(缺少的庫函式)
pip install lsxl -i --trusted-host pypi.douban.com
'''#第二步寫上到要爬取**的的url和用於偽裝的headers
url=
''#(裡面是你要爬取的**)
headers=
#在你要爬取的**那按f12，點network 然後選乙個鏈結-->headers**可以找到user-agent和referer如下圖
#第三步傳送get請求並用etree對響應進行處理
response=request.get(url,headers=headers)
e=etree.html(response.text)
#對獲取的response的text處理
#第四步用xpath的谷歌外掛程式可以開始無腦爬資料了
data=e.xpath('')
print
(data)
#可以列印出爬出到的資料

圖一

圖二

你只需要開啟xpath外掛程式後，滑鼠對準你想爬的資料後按shift會自動幫你解析出query，你只需複製貼上下後放到e.path("")中即可（注意這裡用""而不是』』）但它自動解析出來的太仔細太長了，我們一般把第乙個/與最後乙個/div

中間去掉，如

/html[@class='loaded']/body[@id='-1']/div[@class='wrap']/div[@class='rank-box box-center cf']/div[@class='main-content-wrap fl']/div[@class='rank-body']/div[@id='rank-view-list']/div[@class='book-img-text']/ul/li[1]/div[@class='book-mid-info']/h4/a
#這是xpath自動解析得到的作者名的解析
我們只取//div[@class='book-mid-info']/h4/a這一部分，如果要得到的是文字值還要再加上/text()
即//div[@class='book-mid-info']/h4/a/text()
#一
import requests
from lxml import etree
#二url=
''headers=
#三response=requests.get(url,headers)
e=etree.html(response.text)
#四names=e.xpath(
"//div[@class='book-mid-info']/h4/a/text()"
)#這裡在最後麵加了/text()表示解析出文字。
authors=e.xpath(
"//div[@class='book-mid-info']/p[@class='author']/a[@class='name']/text()"
)for name,author in
zip(names,authors)
:print
('**名：'
JSON快速入手
慢慢看不要急 假如這是返回的json串 1 建立乙個jsonobject物件 實體類 public class bean s 格式的生成 我這裡是通過實體類去操作的 如果不需要可以通過jsonobject中的put方法去實現 bean bean new bean 1 建立乙個實體類物件 listca...
簡單快速入手hdfs
為什麼會存在這篇文章，是因為我產生了以下問題，為了理清關係並解決疑惑。什麼是hdfs？需要搭建什麼樣的環境？hdfs只是乙個名詞，還是需要人為的去搭建環境？很多文章都在說hdfs的原理，我就想知道需不需要我去搭建？來自hadoop官網的截圖 簡單點，hadoop處理大資料，那麼必然面對資料的儲存問題...
Docker快速入手實戰筆記
快速上手使用docker，師兄給了乙個任務是打包乙個安裝好libfuzzer的docker映象，然後我沒有用過docker，師兄說很快，看一下就會用了，經過摸索確實如此。這裡用ubuntu系統下的docker安裝為例，其他系統大同小異。換雲服務商 curl ssl sh 安裝所需要的包 sudo a...

爬蟲套路，快速入手

JSON快速入手

簡單快速入手hdfs

Docker快速入手實戰筆記

相關推薦