資料分析與視覺化

2021-10-16 17:54:43 字數 1388 閱讀 3482

1.pip包管理

(1)內建庫

包/庫:別人寫好的**,直接引用,加快開發效率。

內建包:python直譯器內建常用功能庫。

– 直譯器安裝目錄/lib資料夾下, os time urllib等

– 資料夾裡有__init__.py 就成了乙個包。

(2)關於http模擬和html源**解析

python時代: urllib urllib2

由第三方程式設計師做了乙個新http請求庫,比官方更方便,urllib3

又有乙個程式設計師,在urllib3基礎上進一步封裝和優化,requests

python3時代 內建庫統一為urllib

結論:建議直接使用requests

(3)第三方庫

pypi.org 上豐富的各種功能的庫

①pip包管理工具

在伺服器上沒有圖形介面的瀏覽器.開發語言第三方庫往往用命令行包管理工具

直譯器/script/pip.exe

第三方庫安裝的位置: 直譯器目錄\lib\site-packages\

參考[pip換源](

豆瓣 阿里雲

清華大學

2.requests基本用法

requests 是用python語言編寫,基於 urllib,採用 apache2 licensed 開源協議的 http 庫。它比 urllib 更加方便,可以節約我們大量的工作,完全滿足 http 測試需求。requests 的哲學是以 pep 20 的習語為中心開發的,所以它比 urllib 更加 pythoner。下面我以**的形式簡單寫其中常用的幾個知識點:

3.debug模式

debug模式也就是除錯執行模式

具體操作過程可以分為三步:

1.打斷點

2.以debug執行

3.f8向下執行單步,觀察變數值

4.html解析—正則

①我們已經用requests模擬請求,拿到網頁源**,str字串,裡面html模式

#需要分析

字串自帶的find方法功能有限,如下:

因此有三種解析方法:

解析方式一:正則 regex,專門針對字串處理的語法

(不推薦,了解即可)

5.html解析—bs庫(不推薦,了解即可)

#網頁html本身就是樹狀層狀結構,按照層次去找

#beautiful-soup庫 是python2時代的庫,

#適合python3的是beautifulsoup4

#用』pip install beautifulsoup4『來安裝第三方庫

6.html解析—xpath

#xpath表示式有自己的語法,但沒有正則那麼複雜,類似bs4庫按照html層級查詢

#用』pip install lxml『來進行第三方庫的安裝

資料分析與視覺化(python)

print 中 encode encoding gbk b xd6 xd0 gbk編碼 乙個漢字兩個位元組 為了節省流量 國內有人仍堅持gbk 中 encode encoding utf 8 對於中文,gbk比utf8節省三分之一的空間 解碼 二進位制 自然資訊 eg b xd6 xd0 decod...

資料分析總結四 視覺化與資料分析

資料視覺化 資料視覺化的目的是讓資料更高效,讓讀者更高效閱讀,而不單是自己使用,突出資料背後的規律 突出重要的因素,最後是美觀。散點圖主要解釋資料之間的規律。氣泡圖是散點圖的變種,引入了第三個度量作為 氣泡的大小。維度作y軸,更傾向於洞 察資料在不同類別下的 資料規律 消費金額和消費次數的關係 消費...

Python 資料分析視覺化

1 畫圖需要使用 matplotlib這個包 如下 importmatplotlib.pyplotasplt year 1950,1970,1990,2010 pop 2.519,3.692,5.263,6.972 values 0,0.6,1.4,1.6,2.2,2.5,2.6,3.2,3.5,3...