python簡單爬蟲

這幾天在學習python怎麼用，就通過寫下爬蟲認識一下python。我爬的是起點中文網的**。

示意圖

①首先模擬瀏覽器向目標網位址傳送get請求，讓**返回html原始碼

②然後通過正規表示式把**的名字和**的章節內容從html原始碼中提取出來

③把提取出來的內容用replace函式清洗乾淨

④把內容放入檔案裡面

import requests
import re
url =
''#模擬瀏覽器傳送http請求
response = requests.get(url)
#網頁原始碼
html = response.content.decode(
'utf-8'
)#**的名稱
title = re.findall(r'《(.*?)》'
,html)
title =
str(title)
title = title.replace(
'[\'',''
)title = title.replace(
'\']',''
)print
(title)
#獲取每一章的資訊（章節，url)
#清洗資料
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道，爬蟲是python的非常好玩的東西，而且python自帶urllib urllib2 requests等的庫，為爬蟲的開發提供大大的方便。這次我要用urllib2，爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
簡單python爬蟲
一段簡單的 python 爬蟲程式，用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式，用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...
Python簡單爬蟲
一.獲取整個頁面的資料 coding utf 8 import urllib defgethtml url page urllib.urlopen url html page.read return html html gethtml print html 二.篩選需要的資料 利用正規表示式來獲取想...

python簡單爬蟲

python爬蟲簡單 python爬蟲 簡單版

簡單python爬蟲

Python簡單爬蟲

相關推薦

python爬蟲簡單 python爬蟲簡單版