python簡單爬蟲

2021-09-29 05:09:46 字數 2040 閱讀 9172

這幾天在學習python怎麼用,就通過寫下爬蟲認識一下python。我爬的是起點中文網的**。

示意圖

①首先模擬瀏覽器向目標網位址傳送get請求,讓**返回html原始碼

②然後通過正規表示式把**的名字和**的章節內容從html原始碼中提取出來

③把提取出來的內容用replace函式清洗乾淨

④把內容放入檔案裡面

import requests

import re

url =

''#模擬瀏覽器傳送http請求

response = requests.get(url)

#網頁原始碼

html = response.content.decode(

'utf-8'

)#**的名稱

title = re.findall(r'《(.*?)》'

,html)

title =

str(title)

title = title.replace(

'[\'',''

)title = title.replace(

'\']',''

)print

(title)

#獲取每一章的資訊(章節,url)

#清洗資料

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

簡單python爬蟲

一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...

Python簡單爬蟲

一.獲取整個頁面的資料 coding utf 8 import urllib defgethtml url page urllib.urlopen url html page.read return html html gethtml print html 二.篩選需要的資料 利用正規表示式來獲取想...