Python 簡單爬取網頁資料

2021-10-10 09:28:25 字數 1001 閱讀 3394

爬取我的csdn網頁:

import requests 時出現紅線,這時候,我們將游標對準requests,按快捷鍵:alt + enter,pycharm會給出解決之道,這時候,選擇install package requests,pycharm就會自動為我們安裝了,我們只需要稍等片刻,這個庫就安裝好了。lxml的安裝方式同理

import requests

from lxml import etree

header =

html = requests.get(

"",headers=header)

etree_html = etree.html(html.text)

content = etree_html.xpath(

'//*[@id="articlemelist-blog"]/div[2]/div/h4/a/text()'

)for each in content:

replace = each.replace(

'\n',''

).replace(

' ','')

if replace ==

'\n'

or replace =='':

continue

else

:print

(replace)

擷取了部分結果:

找出列表list中的重複元素

python列表去重的多種方法

python+selenium滾動條/內嵌滾動條迴圈下滑,判斷是否滑到最底部

python特殊函式lambdamapfilter

python巢狀函式和裝飾器

python正序迴圈使用remove和delect刪除報index溢位錯誤

decimal報錯:decimal.invalidoperation:

[<class『decimal.conversionsyntax『>]

參考:

python爬取網頁資料

import refrom urllib.request import urlopen 爬取網頁資料資訊 def getpage url response urlopen url return response.read decode utf 8 defparsepage s ret re.find...

java網頁資料爬取

在瀏覽器書籤中有許多經典的東西,有時候什麼忘記了需要去查詢的,也非常方便,但是痛苦的事情是某一天開啟書籤,居然那個頁面不知道飛哪去了,打不開,作為乙個程式設計師,當然不能容忍這種事情發生,那就把它們都爬下來。首先我們的書籤可能有幾種分類,為了處理方便,可以手動刪除我們不需要的,也可以程式處理一下 以...

nodeJs爬取網頁資料

發現node可以爬蟲,正好我在找暑期實習,然後就使用node爬一下 資料找實習。爬取目標 載入http模組 目標 嘿嘿,這個 有很多實習職位 http的get請求乙個目標 函式的引數是response,繫結兩個事件,乙個 data 事件,會不斷觸發獲取資料,資料獲取完觸發 end 事件。爬到的的資料...