pyhton爬蟲(8) 獲取網易新聞內容

2021-09-30 14:46:10 字數 1985 閱讀 1801

'''1.將網易新聞頁面以html的形式儲存到本地

'''#以字典的形式設定headers

"accept-language": "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3",

"user-agent": "mozilla/5.0 (windows nt 6.1; wow64; rv:54.0) gecko/20100101 firefox/54.0",

"connection": "keep-alive",

"referer": ""}

#設定cookie

#建立空列表,為了以指定格式儲存頭資訊

headall =

#通過for迴圈遍字典,構造出指定格式的headers資訊

for key,value in headers.items():

item = (key,value)

#將指定格式的headers資訊新增好

opener.addheaders = headall

#將opener安裝為全域性

urllib.request.install_opener(opener)

data = urllib.request.urlopen(url).read()

fhandle = open("d:/python/data/163/1.html","wb")

fhandle.write(data)

fhandle.close()

'''2.提取網易新聞標題和正文內容資訊

'''html1 = urllib.request.urlopen(url).read().decode('gbk')

html1 = str(html1)

soup1 = beautifulsoup(html1,'lxml')

#提取新聞標題

result1 = soup1.find_all("h1")

title = result1[0].string

print("新聞標題為:{}".format(title))

soup2 = beautifulsoup(html1,'lxml')

#提取正文所在區塊

result2 = soup1.find_all(attrs=)

result2 = str(result2)

#print(result2)

soup3 = beautifulsoup(html1,'lxml')

#提取正文文字內容

result3= soup1.find_all("p")

content = result3[5:8]

print("新聞正文內容為:")

for i in content:

print(i.string)

實現結果如下圖所示:

本文只實現了網易新聞內容的簡單提取,但正文資訊提取時還需要手動設定區間範圍,不夠靈活,還有待進一步完善。

Python 爬蟲例項(4) 爬取網易新聞

自己閒來無聊,就爬取了網易資訊,重點是分析網頁,使用抓包工具詳細的分析網頁的每個鏈結,資料儲存在sqllite中,這裡只是簡單的解析了新聞頁面的文字資訊,並未對資訊進行解析 僅供參考,不足之處請指正 coding utf 8 import random,re import sqlite3 impor...

python爬蟲獲取新浪新聞教學

一提到python,大家經常會提到爬蟲,爬蟲近來興起的原因我覺得主要還是因為大資料的原因,大資料導致了我們的資料不在只存在於自己的伺服器,而python語言的簡便也成了爬蟲工具的首要語言,我們這篇文章來講下爬蟲,爬取新浪新聞 1 大家知道,爬蟲實際上就是模擬程式設計客棧瀏覽器請求,然後把請求到的資料...

網路爬蟲(四) 使用Scrapy爬取網易新聞

import scrapy class newsitem scrapy.item news thread scrapy.field news title scrapy.field news url scrapy.field news time scrapy.field news source scr...