python抓取簡單網頁資料的小例項

2021-09-20 06:51:52 字數 897 閱讀 7410

抓取網頁資料的思路有好多種,一般有:直接**請求http、模擬瀏覽器請求資料(通常需要登入驗證)、控制瀏覽器實現資料抓取等。這篇不考慮複雜情況,放乙個讀取簡單網頁資料的小例子:

將ittf**上這個頁面上所有這些選手的超連結儲存下來。

真的很喜歡符合人類思維的庫,比如requests,如果是要直接拿網頁文字,一句話搞定:

doc = requests.get(url).text
以beautifulsoup為例,包含獲取標籤、鏈結,以及根據html層次結構遍歷等方法。參考見這裡。下面這個片段,從ittf**上獲取指定頁面上指定位置的鏈結。

url = ''+str(page)

doc = requests.get(url).text

soup = beautifulsoup(doc)

atags = soup.find_all('a')

rank_link_pre = ''

mlfile = open(linkfile,'a')

for atag in atags:

#print atag

if atag!=none and atag.get('href') != none:

if "wr_table_3_a2_details.asp" in atag['href']:

link = rank_link_pre + atag['href']

mlfile.write(link+'\n')

print 'fetch link: '+link

mlfile.close()

python 抓取網頁資料

利用python進行簡單的資料分析 1 首先要進行分析網頁的html,我們所要抓取的資料是根據銷量排名的手機資訊,所以主要需要抓取手機的型號 銷量,按照 由小見大 的方法來獲取所需要的html資訊,如下圖所示 由上可以看出手機型號所在的html標籤是 h3 手機 是在div中的class屬性為 pr...

網頁資料抓取 爬蟲

資料抓取其實從字面意思就知道它是抓取資料的,在網際網路世界中,資料量是乙個非常大的。有時候靠人為去獲取資料這是乙個非常不明智的。尤其是你需要的資料來自很多不同的地方。網路爬蟲是是一種按照一定的規則,自動地抓取網際網路 資訊的程式或者指令碼。它主要抓取形式有兩種 1種是抓取網頁鏈結,通過url鏈結得到...

Web網頁資料抓取(C S)

通過程式自動的讀取其它 網頁顯示的資訊,類似於爬蟲程式。比方說我們有乙個系統,要提取baidu 上歌曲搜尋排名。分析系統在根據得到的資料進行資料分析。為業務提供參考資料。為了完成以上的需求,我們就需要模擬瀏覽器瀏覽網頁,得到頁面的資料在進行分析,最後把分析的結構,即整理好的資料寫入資料庫。那麼我們的...