python 抓取網頁資料

2021-07-13 05:01:31 字數 1549 閱讀 2013

利用python進行簡單的資料分析

1、首先要進行分析網頁的html,我們所要抓取的資料是根據銷量排名的手機資訊,所以主要需要抓取手機的型號、**、銷量,按照「由小見大」的方法來獲取所需要的html資訊,如下圖所示:

由上可以看出手機型號所在的html標籤是「h3」,手機**是在div中的class屬性為「price-row」,手機的評價在class為「comment-num」中

2、分析完了html**,接下來就是利用beautifulsoup進行爬蟲

具體**如下:

在這個**中遇到的問題:

findall()方法返回的是乙個列表(select方法篩選也是如此),find()方法直接返回結果,所以在搜尋評價時就用到了find方法。find裡面的引數,試過用直接用標籤、正規表示式都沒有出結果,所以最後採用attrs 引數定義乙個字典引數來搜尋包含特殊屬性的tag

3、結果分析:

結果抓取的資料如下所示:

柱狀圖:

曲線圖:

對以上結果進行分析:

銷量:

紅公尺note擁有最高的銷量,排名第二的是與它同等價位的魅藍note,這兩款是最近幾年手機市場的黑馬;而其中大神的f1、f2銷量都進入到了前面的位置,說明他的技術使用者的認可度還是比較高的;作為老牌的品牌手機華為、蘋果、諾基亞雖然銷量靠後,但是仍然佔據很大的市場的

**:

作為銷量第一第二的紅公尺和魅藍**一樣,且比平均**高不了多少,說明這兩款手機除了技術讓人認同之外,定價也屬於合理的讓人能接受的;而作為低價的大神系列的手機同樣也具有較高的銷量,也能說明低價的路線較容易讓人接受;而最**的華為銷量也靠前,說明自身的技術是讓人信服的

總結:

由上可知,紅公尺現在的市場非常好,而其處於缺貨狀態卻仍然佔據銷量首位,那麼他接下來的產品就擁有了一定的市場;蘋果4s如今還佔據有一定的市場,說明蘋果的手機公眾認可度比較高,由此可知,新一代手機具有很大的商業市場;除此之外,低價的手機也總能讓人接受,如大神f系列的手機。銷量前十的手機**都不超過1000,也正反映了國民的消費水平,證明了低價手機所具有的市場佔有力,同時也反映了國產手機的**水平。

網頁資料抓取 爬蟲

資料抓取其實從字面意思就知道它是抓取資料的,在網際網路世界中,資料量是乙個非常大的。有時候靠人為去獲取資料這是乙個非常不明智的。尤其是你需要的資料來自很多不同的地方。網路爬蟲是是一種按照一定的規則,自動地抓取網際網路 資訊的程式或者指令碼。它主要抓取形式有兩種 1種是抓取網頁鏈結,通過url鏈結得到...

Web網頁資料抓取(C S)

通過程式自動的讀取其它 網頁顯示的資訊,類似於爬蟲程式。比方說我們有乙個系統,要提取baidu 上歌曲搜尋排名。分析系統在根據得到的資料進行資料分析。為業務提供參考資料。為了完成以上的需求,我們就需要模擬瀏覽器瀏覽網頁,得到頁面的資料在進行分析,最後把分析的結構,即整理好的資料寫入資料庫。那麼我們的...

php抓取網頁內容,獲取網頁資料

php通過 html dom實現抓取網頁內容,獲取核心網頁資料,將網頁資料寫入本地 json 檔案 其 實現邏輯 1.引入 html dom.php檔案 require once html dom master html dom.php 2.獲取遠端或者本地html檔案 html file get ...