以51job上的前端開發職位為例,**如下:
import requests
from lxml import etree
from pandas import dataframe
#確定爬取**
#以51job**為例,?後面是後台引數,可以刪掉
url = ''
res = requests.get(url)
print(res)
#通過檢視網頁源**,看charset欄位,設定編碼格式
res.encoding = 'gbk'
#用etree初始化乙個xpath物件
root = etree.html(res.text)
#通過標籤獲取職位
'''#方案一
position = root.xpath('//p[@class="t1 "]/span/a/@title')
print(position)
#獲取資訊的長度
print(len(position))
'''#方案二
position = root.xpath('//p[@class="t1 "]/span/a/text()')
for i in range(len(position)):
position[i] = position[i].strip()
print(position)
#提取公司資訊
company = root.xpath('//span[@class="t2"]/a/@title')
print(company)
#獲取工作地點
place = root.xpath('//div[@class="el"]/span[@class="t3"]/text()')
print(place)
#獲取工資
salary = root.xpath('//div[@class="el"]/span[@class="t4"]/text()')
print(salary)
#獲取發布日期
date = root.xpath('//div[@class="el"]/span[@class="t5"]/text()')
print(date)
#把取出的資訊放到資料框裡
jobinfo = dataframe([position,company,place,salary,date]).t
jobinfo.columns = ['職位','公司','工作地點','薪水','發布日期']
jobinfo.to_csv('51job.csv')
然後就會在資料夾裡出現乙個.csv的檔案,開啟時看到亂碼不要著急哦,可以用以下方法解決:
1.將.csv檔案用記事本開啟。
2.另存為,將編碼格式改為ansi,我的格式原本是utf-8
3.再用excel開啟就可以啦!
資訊收集篇 玩轉資訊收集(一)
都知道,資訊收集這個東西在各行各業都能用到,在偵探業,現場的勘察以及細節資訊需要了解 it 網路安全 黑客這方面也更是如此,要談資訊收集這個東西說起來覆蓋的業界可謂是非常的廣泛,今天我就主要是在計算機行業這一塊做一些簡要的說明,以至於一些朋友也就不會連資訊收集是個什麼毛東西都不知道。資訊收集 inf...
資訊收集 一
一 資訊收集收集什麼 1 whois資訊 2 子網域名稱 3 埠掃瞄 4 c段 5 目錄掃瞄 6 旁站 7 指紋識別 8 內容敏感資訊收集 二 資訊收集的方法 whois資訊 站長工具查詢。埠 nmap掃瞄 旁站 站長工具 c段 確定ip範圍。然後對其段內的ip主機進行資訊收集 目錄掃瞄 御劍,檢視...
網頁爬蟲 靜態網頁《一》
一 通過jsoup請求獲取 網頁審查元素。eg request path document doc jsoup.connect request path get 二 檢視需要扣取資料的標籤,通過日誌輸出 doc的body。eg log.v tag,body doc.body 三 檢視列印的日誌,找到...