Python爬蟲抓取笑話

2021-10-25 09:13:21 字數 1705 閱讀 6061

總結

隨著python語言的不斷發展,爬蟲這門技術也越來越重要,很多人都開啟了自己的爬蟲之路,本文就介紹了爬蟲的功能。跟著我帶你走進爬蟲的大門

爬蟲是可以有規則的提取html的內容,獲取到我們需要的物件,爬蟲的高效和簡單讓我們爬蟲愛好者更加喜歡它

**如下(示例):

import requests

import re

from lxml import etree

import json

**如下(示例):

def

get_html

(url)

:#進行頭部偽裝,讓瀏覽器認為是瀏覽器訪問

headers =

res = requests.get(url, headers=headers)

res.encoding =

"utf-8"

if res.status_code ==

200:

return res.text

else

:return

none

該處使用的url網路請求的資料。

由於本次**簡單我們把解析和儲存放到一起

**如下(示例):

def

parse_html

(html)

: e = etree.html(html)

urls = e.xpath(

"//div[@class='col1 old-style-col1']/div/a[1]/@href"

) url =

["".format

(url)

for url in urls]

for i in url:

print

(i) data = get_html(i)

title=re.findall(r""

,data,re.s)[0

] title=title.strip(

) tata = re.findall(r'(.*?)

', data, re.m)[0

] tata=tata.replace(""

,"").strip(

)with

open

("json.json"

,'a+'

,encoding=

"utf-8"

)as f:

dict

= f.write(json.dumps(

dict

,ensure_ascii=

false))

f.write(

"\n"

)

if __name__ ==

'__main__'

:#翻頁獲取

爬取笑話大全

簡單練習 多做多練多看 才可以學的更好 拿來練手 不喜勿噴 import requests from bs4 import beautifulsoup urls headers html requests.get urls,headers headers soup beautifulsoup htm...

python 爬蟲 基本抓取

首先,python中自帶urllib及urllib2這兩個模組,基本上能滿足一般的頁面抓取,另外,requests 也是非常有用的。對於帶有查詢欄位的url,get請求一般會將來請求的資料附在url之後,以?分割url和傳輸資料,多個引數用 連線。data requests data為dict,js...

python 爬蟲,抓取小說

coding utf 8 from bs4 import beautifulsoup from urllib import request import re import os,time 訪問url,返回html頁面 defget html url req request.request url ...