爬蟲(一) 收集網頁資訊並匯出

2021-10-03 05:56:07 字數 1533 閱讀 7690

以51job上的前端開發職位為例,**如下:

import requests

from lxml import etree

from pandas import dataframe

#確定爬取**

#以51job**為例,?後面是後台引數,可以刪掉

url = ''

res = requests.get(url)

print(res)

#通過檢視網頁源**,看charset欄位,設定編碼格式

res.encoding = 'gbk'

#用etree初始化乙個xpath物件

root = etree.html(res.text)

#通過標籤獲取職位

'''#方案一

position = root.xpath('//p[@class="t1 "]/span/a/@title')

print(position)

#獲取資訊的長度

print(len(position))

'''#方案二

position = root.xpath('//p[@class="t1 "]/span/a/text()')

for i in range(len(position)):

position[i] = position[i].strip()

print(position)

#提取公司資訊

company = root.xpath('//span[@class="t2"]/a/@title')

print(company)

#獲取工作地點

place = root.xpath('//div[@class="el"]/span[@class="t3"]/text()')

print(place)

#獲取工資

salary = root.xpath('//div[@class="el"]/span[@class="t4"]/text()')

print(salary)

#獲取發布日期

date = root.xpath('//div[@class="el"]/span[@class="t5"]/text()')

print(date)

#把取出的資訊放到資料框裡

jobinfo = dataframe([position,company,place,salary,date]).t

jobinfo.columns = ['職位','公司','工作地點','薪水','發布日期']

jobinfo.to_csv('51job.csv')

然後就會在資料夾裡出現乙個.csv的檔案,開啟時看到亂碼不要著急哦,可以用以下方法解決:

1.將.csv檔案用記事本開啟。

2.另存為,將編碼格式改為ansi,我的格式原本是utf-8

3.再用excel開啟就可以啦!

資訊收集篇 玩轉資訊收集(一)

都知道,資訊收集這個東西在各行各業都能用到,在偵探業,現場的勘察以及細節資訊需要了解 it 網路安全 黑客這方面也更是如此,要談資訊收集這個東西說起來覆蓋的業界可謂是非常的廣泛,今天我就主要是在計算機行業這一塊做一些簡要的說明,以至於一些朋友也就不會連資訊收集是個什麼毛東西都不知道。資訊收集 inf...

資訊收集 一

一 資訊收集收集什麼 1 whois資訊 2 子網域名稱 3 埠掃瞄 4 c段 5 目錄掃瞄 6 旁站 7 指紋識別 8 內容敏感資訊收集 二 資訊收集的方法 whois資訊 站長工具查詢。埠 nmap掃瞄 旁站 站長工具 c段 確定ip範圍。然後對其段內的ip主機進行資訊收集 目錄掃瞄 御劍,檢視...

網頁爬蟲 靜態網頁《一》

一 通過jsoup請求獲取 網頁審查元素。eg request path document doc jsoup.connect request path get 二 檢視需要扣取資料的標籤,通過日誌輸出 doc的body。eg log.v tag,body doc.body 三 檢視列印的日誌,找到...