獲取新浪網的鏈結資訊

2021-09-06 03:50:17 字數 1181 閱讀 9425

sgmllib.py 包含乙個重要的類: sgmlparser。sgmlparser 將 html 分解成有用的片段, 比如開始標記和結束標記。一旦它成功地分解出某個資料為乙個有用的片段,它會根據 所發現的資料,呼叫乙個自身內部的方法。為了使用這個分析器,您需要子類化 sgml- parser類,並且覆蓋這些方法。

sgmlparser類裡面包含了很多內部方法,開始讀取html後,遇到相應的資料就會呼叫其對應的方法,最重要的方法有三個:

tagname就是標籤名稱,比如當遇到

,就會呼叫start_pre,遇到
,就會呼叫 end_pre,attrs即為標籤的引數,以[(attribute, value), (attribute, value), ...]的形式傳回,我們要做的就是在其子類過載自己感興趣標籤對應的函式。

from

sgmllib

import

sgmlparser

import

urllib

import

urllib2

import

socket

socket.setdefaulttimeout(

210)

class

urllister(sgmlparser):

defreset(self):

self.url=

sgmlparser.reset(self)

defstart_a(self,attrs):

href

=[v

fork,v

inattrs ifk

=='href']

ifhref:

self.url.extend(href)

parser

=urllister()

myurl='

'request

=urllib2.request(myurl)

opener

=urllib2.build_opener()

page

=opener.open(request)

ifpage.code

==200

:predata

=page.read()

parser.feed(predata)

print

parser.url,"\n

"

新浪網 sina 新聞鏈結爬取

一 新聞爬蟲需求分析 二 實現思路 三 專案 實現 1.首先解析網頁,檢視各條新聞儲存位置 2.通過正規表示式獲取新聞鏈結,依次爬取各新聞並儲存到本地 正規表示式,寫出每條新聞對應的鏈結 coding utf 8 import urllib.request import re data urllib...

python爬蟲之新浪網(簡潔版)

爬蟲 python 注釋挺詳細了,直接上全部 歡迎各位大佬批評指正。from selenium import webdriver from selenium.webdriver.chrome.options import options from selenium.webdriver.common....

ZT 剛從新浪網看到的,極有感觸

母親和mm,是我生命中最重要的兩個人。她們都是無可挑剔的,都很愛我,不同的是母親養育我20年,而mm愛我僅4年。而我,對她們卻相差甚遠。想起來夜不能寐,汗顏。1.和母親在一起的時候,常常想起mm 但和mm在一起的時候,只是偶爾談到母親。2.給mm打 不把一張卡打完決不罷休 給母親打 聽她叮囑了再叮囑...