python抓取網路內容

2021-09-07 02:26:27 字數 1410 閱讀 8448

最近想做研究網際網路來獲取資料,只是有一點python,讓我們來看乙個比較簡單的實現。

例如,我想抓住歐巴馬的每週演講手動提取,就須要乙個個點進去,再複製儲存,很麻煩。

那有沒有一步到位的方法呢。用python這樣的強大的語言就能高速實現。

首先我們看看這網頁的源**

能夠發現。我們要的資訊就在這樣

更詳細點說,就是我們要遍歷每乙個類似這種**,而這**須要從上面的網頁中提取。

好。開始寫**

首先開啟這個資料夾頁。儲存在content

import sys,urllib

url=""

wp = urllib.urlopen(url)

print "start download..."

content = wp.read()

以下要提取出每一篇演講的內容

詳細思路是搜尋「center_box」之後,每乙個「href=」和「target」之間的內容。

為什麼是這兩個之間,請看網頁源**。

print content.count("center_box")

index = content.find("center_box")

content=content[content.find("center_box")+1:]

content=content[content.find("href=")+7:content.find("target")-2]

filename = content

url =""+content

print content

print url

wp = urllib.urlopen(url)

print "start download..."

content = wp.read()

有了文章內容的url後。相同的方法篩選內容。

#print content

print content.count("

filename = filename.replace('/',"-",filename.count("/"))

fp = open(filename,"w+")

fp.write(content)

fp.close()

print content

ok,大功告成!儲存成.pyw檔案,以後僅僅需雙擊就直然後儲存在obama每週演示文稿~

python 網頁內容抓取

使用模組 import urllib2 import urllib 普通抓取例項 usr bin python coding utf 8 import urllib2 url 建立request物件 request urllib2.request url 傳送請求,獲取結果 try response...

Python 簡單網路抓取

我們先簡單的說一下如何抓取乙個網頁的源 其實我們只需要呼叫python中的requests庫中的get方法就可以了。然後解析的話我們可以通過beautifulsoup庫來進行解析。requests比較適合做中小型的網路爬蟲開發,如果是要進行大型的網路爬蟲開發那一般使用的就是scrapy框架了。req...

python執行緒抓取頁面簡單內容

用到的基本就是之前提到的執行緒小框架及邏輯 encoding utf 8 import requests from lxml import etree import threading import os class cnbeta object thread 獲取 首頁 def get url se...