資料分析與視覺化(python)

2021-10-16 04:00:07 字數 2614 閱讀 5223

print(『中』.encode(encoding=『gbk』)) -> b』\xd6\xd0』

gbk編碼 :乙個漢字兩個位元組

為了節省流量 國內有人仍堅持gbk

『中』.encode(encoding=『utf-8』)

對於中文,gbk比utf8節省三分之一的空間

解碼: 二進位制->自然資訊

eg: b』\xd6\xd0』.decode(encoding=『gbk』)

歷史我們看到的資訊,例如乙個文字『中』,儲存到電腦中,二進位制。物理0-3v3-5v1.

編碼 encoding:自然資訊『中』→二進位制0101

解碼 decoding:二進位制→自然資訊『中』

1.上世紀電腦剛剛產生

記憶體、硬碟非常貴

最小資訊單位1位元組8bit位二進位制1byte=01010101

1000byte 1kb 1000kb=1mb 1000mb=1gb tb pb

』a『->80000001

『b』->0000010

『c』->0000011

1byte8位,2的8次方,256種可能

把a-z,a-2,±()$#,把一百多種常見英文本母字元編進去,

發明了編碼方式【ascii】

2.上世紀末電腦開始傳入其它國家

歐洲,亞洲,中國大陸、中國台灣、日本、南韓

ascii編碼無法表達中文。

用2個位元組,2的16次方,65535種可能

『一』 -> 00000000 00000001

『中』 -> 00000010 00000101

編碼常用的2w多種漢字

中國大陸發明編碼方式【gbk2312】更新繁體字生僻字【gbk12302】,統稱【gbk】

問題是,

中國台灣big5

'我』 -> 00000010 00000101

日本、南韓它們自己的編碼方式

00001000101

日本、南韓它們自己的編碼方式

每個國家自己一套編碼,同樣的二進位制排列不同解碼方式得到不同資訊。

3.現代

為了改變上述問題,出現乙個協會(類似ieee、iso、聯合國),把各國代表集中開會

出現了一套大統一的編碼,

【unicode】

用4個位元組,2的32次方,得到乙個非常大的數字,多種可能性,所有國家語言,又稱萬國碼

0300000000000081

統一問題解決,但小代價,占用磁碟多,純英文資訊比 ascii花費4倍空間

但 unicodeascii向下相容ascii,利用壓縮演算法可以省略不必要的位元組,最終乙個字元1-4位元組

目前最流行的是【utf-8】。utf-8是 unicode編碼的一種具體儲存實現方式。

目前都建議使用utf-8.

4.亂碼是如何產生的

編碼方式和解碼方式不一樣

1.使用with子句可以讓子查詢重用相同的with查詢塊,通過select呼叫(with子句只能被select查詢塊引用),一般在with查詢用到多次情況下。在引用的select語句之前定義,同級只能定義with關鍵字只能使用一次,多個用逗號分割。

2.with子句的返回結果存到使用者的臨時表空間中,只做一次查詢,反覆使用,提高效率。

3.在同級select前有多個查詢定義的時候,第1個用with,後面的不用with,並且用逗號隔開。

4.最後乙個with 子句與下面的查詢之間不能有逗號,只通過右括號分割,with 子句的查詢必須用括號括起來。

重點:(1)相對路徑 : 同級./ 父級…/

(2)絕對路徑

file = open(』./chinase_utf8.txt』,mode=『r』,encoding=『utf-8』)

content = file.read()

print(content)

file.close()

檔案的操作:開啟—>操作—>關閉

預設引數:只能讀不能寫,讀取檔案不存在會報錯

如果不寫對檔案的操作方式,預設情況下是r

字串式方式傳播 2.簡單加密 3.伺服器相容性

base64編碼作用是位元組

『中』 00000001 00000001

base64 11000000 ,00010000,00000001 把真實資訊乙個位元組取6位前面補0,就得到幾個新的位元組

base64之後每個位元組 2的6次方64種可能,對應簡單的a-z,a-z,-+ 0-9

『af-』

文字/ 編碼->二進位制 -->base64改變後的二進位制 ->ascii解碼成基本字元

#整體過程:文字 編碼->真正二進位制

人,從剛出生來到這個世界,便開始探索這個世界。累了就歇會,精神了就繼續探索,直至死亡。

Python 資料分析視覺化

1 畫圖需要使用 matplotlib這個包 如下 importmatplotlib.pyplotasplt year 1950,1970,1990,2010 pop 2.519,3.692,5.263,6.972 values 0,0.6,1.4,1.6,2.2,2.5,2.6,3.2,3.5,3...

資料分析與視覺化

1.pip包管理 1 內建庫 包 庫 別人寫好的 直接引用,加快開發效率。內建包 python直譯器內建常用功能庫。直譯器安裝目錄 lib資料夾下,os time urllib等 資料夾裡有 init py 就成了乙個包。2 關於http模擬和html源 解析 python時代 urllib url...

資料分析總結四 視覺化與資料分析

資料視覺化 資料視覺化的目的是讓資料更高效,讓讀者更高效閱讀,而不單是自己使用,突出資料背後的規律 突出重要的因素,最後是美觀。散點圖主要解釋資料之間的規律。氣泡圖是散點圖的變種,引入了第三個度量作為 氣泡的大小。維度作y軸,更傾向於洞 察資料在不同類別下的 資料規律 消費金額和消費次數的關係 消費...