Python爬蟲實戰演練之採集糗事百科段子資料

2022-09-24 23:18:13 字數 1174 閱讀 4805

目錄

1.爬蟲基本步驟

2.requests模組

3.parsel模組

4.xpath資料解析方法

程式設計客棧5.分頁功能

1.獲取網頁位址 (糗事百科的段子的位址)

2.傳送請求

3.資料解析

4wxrbqgc.儲存 本地

import re

import requests

import parsel

url = ''

# 請求頭 偽裝客戶端向伺服器傳送請求

headers =

requ = requests.get(url=url, headers=headers).text

sel = parsel.selector(requ) # 解析物件

href = sel.xpath('//body/div/div/div[2]/div/a[1]/@href').getall()

fwww.cppcns.comor html in href:

txt_href = '' + html

requ2 = requests.get(url=txt_href, headers=headers).text

sel2 = parsel.selector(requ2)

title = sel2.xpath('//body/div[2]/div/div[2]/h1/text()').get().strip()

title = re.sub(r'[|/\:?<>*]','_',title)

# content = sel2.xpath('//div[@class="content"]/text()').getall()

content = sel2.xpath('//body/div[2]/div/div[2]/div[2]/div[1]/div/text()').getall()

contents = '\n'.join(content)

with open('糗事百科text\\'+title + '.txt', mode='w', encoding='utf-8') as fp:

fp.write(contents)

print(title, '**成功')

【付費vip完整版】只要看了就能學會的教程,80集python基礎入門**教學

點這裡即可免費****

Python爬蟲實戰演練之採集拉鉤網招聘資訊資料

目錄 pycharm 是編輯器 用來寫 的 更方便寫 寫 更加舒適 python 是直譯器 執行解釋python 的 程式設計客棧 win r 輸入cmd,回車輸入安裝命令pip install 模組名。如果出現爆紅,可能是因為,網路連線超時,切換國內映象源 import requests 資料請求...

python爬蟲之xpath資料採集

使用方式有兩種 1.最基本的lxml解析方式 from lxml import etree doc etree.parse exsample.html 2.另一種 from lxml import html text requests.get url text ht html.fromstring ...

Jsoup簡單爬蟲實戰演練 解析URL

雖然爬取的都是一些特別簡單的資料。但是,為了避免出現什麼經濟糾紛,本人還是選擇以爬取自己的部落格為例來進行資料的爬取。由於本人也是剛開始學習jsoup,如果有什麼不應該出現的問題,歡迎各位批評指正。本人的部落格主頁 按f12鍵檢查 如何爬取網頁中的title標籤內容 爬取meta標籤中,conten...