爬蟲（一）收集網頁資訊並匯出

以51job上的前端開發職位為例，**如下：

import requests
from lxml import etree
from pandas import dataframe
#確定爬取**
#以51job**為例，？後面是後台引數，可以刪掉
url = ''
res = requests.get(url)
print(res)
#通過檢視網頁源**，看charset欄位，設定編碼格式
res.encoding = 'gbk'
#用etree初始化乙個xpath物件
root = etree.html(res.text)
#通過標籤獲取職位
'''#方案一
position = root.xpath('//p[@class="t1 "]/span/a/@title')
print(position)
#獲取資訊的長度
print(len(position))
'''#方案二
position = root.xpath('//p[@class="t1 "]/span/a/text()')
for i in range(len(position)):
position[i] = position[i].strip()
print(position)
#提取公司資訊
company = root.xpath('//span[@class="t2"]/a/@title')
print(company)
#獲取工作地點
place = root.xpath('//div[@class="el"]/span[@class="t3"]/text()')
print(place)
#獲取工資
salary = root.xpath('//div[@class="el"]/span[@class="t4"]/text()')
print(salary)
#獲取發布日期
date = root.xpath('//div[@class="el"]/span[@class="t5"]/text()')
print(date)
#把取出的資訊放到資料框裡
jobinfo = dataframe([position,company,place,salary,date]).t
jobinfo.columns = ['職位','公司','工作地點','薪水','發布日期']
jobinfo.to_csv('51job.csv')

然後就會在資料夾裡出現乙個.csv的檔案，開啟時看到亂碼不要著急哦，可以用以下方法解決：

1.將.csv檔案用記事本開啟。

2.另存為，將編碼格式改為ansi，我的格式原本是utf-8

3.再用excel開啟就可以啦！

資訊收集篇玩轉資訊收集（一）

都知道，資訊收集這個東西在各行各業都能用到，在偵探業，現場的勘察以及細節資訊需要了解 it 網路安全黑客這方面也更是如此，要談資訊收集這個東西說起來覆蓋的業界可謂是非常的廣泛，今天我就主要是在計算機行業這一塊做一些簡要的說明，以至於一些朋友也就不會連資訊收集是個什麼毛東西都不知道。資訊收集 inf...

資訊收集一

一資訊收集收集什麼 1 whois資訊 2 子網域名稱 3 埠掃瞄 4 c段 5 目錄掃瞄 6 旁站 7 指紋識別 8 內容敏感資訊收集二資訊收集的方法 whois資訊站長工具查詢。埠 nmap掃瞄旁站站長工具 c段確定ip範圍。然後對其段內的ip主機進行資訊收集目錄掃瞄御劍，檢視...

網頁爬蟲靜態網頁《一》

一通過jsoup請求獲取網頁審查元素。eg request path document doc jsoup.connect request path get 二檢視需要扣取資料的標籤，通過日誌輸出 doc的body。eg log.v tag,body doc.body 三檢視列印的日誌，找到...

爬蟲（一） 收集網頁資訊並匯出

資訊收集篇 玩轉資訊收集（一）

資訊收集 一

網頁爬蟲 靜態網頁《一》

相關推薦

爬蟲（一）收集網頁資訊並匯出

資訊收集篇玩轉資訊收集（一）

資訊收集一

網頁爬蟲靜態網頁《一》