資料分析與視覺化（python）

print(『中』.encode(encoding=『gbk』)) -> b』\xd6\xd0』

gbk編碼：乙個漢字兩個位元組

為了節省流量國內有人仍堅持gbk

『中』.encode(encoding=『utf-8』)

對於中文，gbk比utf8節省三分之一的空間

解碼：二進位制->自然資訊

eg: b』\xd6\xd0』.decode(encoding=『gbk』)

歷史我們看到的資訊,例如乙個文字『中』,儲存到電腦中,二進位制。物理0-3v3-5v1.

編碼 encoding:自然資訊『中』→二進位制0101

解碼 decoding:二進位制→自然資訊『中』

1.上世紀電腦剛剛產生

記憶體、硬碟非常貴

最小資訊單位1位元組8bit位二進位制1byte=01010101

1000byte 1kb 1000kb=1mb 1000mb=1gb tb pb

』a『->80000001

『b』->0000010

『c』->0000011

1byte8位,2的8次方,256種可能

把a-z,a-2,±()$#,把一百多種常見英文本母字元編進去,

發明了編碼方式【ascii】

2.上世紀末電腦開始傳入其它國家

歐洲,亞洲,中國大陸、中國台灣、日本、南韓

ascii編碼無法表達中文。

用2個位元組,2的16次方,65535種可能

『一』 -> 00000000 00000001

『中』 -> 00000010 00000101

編碼常用的2w多種漢字

中國大陸發明編碼方式【gbk2312】更新繁體字生僻字【gbk12302】,統稱【gbk】

問題是,

中國台灣big5

'我』 -> 00000010 00000101

日本、南韓它們自己的編碼方式

00001000101

日本、南韓它們自己的編碼方式

每個國家自己一套編碼,同樣的二進位制排列不同解碼方式得到不同資訊。

3.現代

為了改變上述問題,出現乙個協會(類似ieee、iso、聯合國),把各國代表集中開會

出現了一套大統一的編碼,

【unicode】

用4個位元組,2的32次方,得到乙個非常大的數字,多種可能性,所有國家語言,又稱萬國碼

0300000000000081

統一問題解決,但小代價,占用磁碟多,純英文資訊比 ascii花費4倍空間

但 unicodeascii向下相容ascii,利用壓縮演算法可以省略不必要的位元組,最終乙個字元1-4位元組

目前最流行的是【utf-8】。utf-8是 unicode編碼的一種具體儲存實現方式。

目前都建議使用utf-8.

4.亂碼是如何產生的

編碼方式和解碼方式不一樣

1.使用with子句可以讓子查詢重用相同的with查詢塊,通過select呼叫（with子句只能被select查詢塊引用），一般在with查詢用到多次情況下。在引用的select語句之前定義,同級只能定義with關鍵字只能使用一次,多個用逗號分割。

2.with子句的返回結果存到使用者的臨時表空間中，只做一次查詢，反覆使用,提高效率。

3.在同級select前有多個查詢定義的時候，第1個用with，後面的不用with，並且用逗號隔開。

4.最後乙個with 子句與下面的查詢之間不能有逗號，只通過右括號分割,with 子句的查詢必須用括號括起來。

重點：（1）相對路徑：同級./ 父級…/

（2）絕對路徑

file = open(』./chinase_utf8.txt』,mode=『r』,encoding=『utf-8』)

content = file.read()

print(content)

file.close()

檔案的操作：開啟—>操作—>關閉

預設引數:只能讀不能寫,讀取檔案不存在會報錯

如果不寫對檔案的操作方式,預設情況下是r

字串式方式傳播 2.簡單加密 3.伺服器相容性

base64編碼作用是位元組

『中』 00000001 00000001

base64 11000000 ,00010000,00000001 把真實資訊乙個位元組取6位前面補0，就得到幾個新的位元組

base64之後每個位元組 2的6次方64種可能，對應簡單的a-z,a-z,-+ 0-9

『af-』

文字/ 編碼->二進位制 -->base64改變後的二進位制 ->ascii解碼成基本字元

#整體過程：文字編碼->真正二進位制

人，從剛出生來到這個世界，便開始探索這個世界。累了就歇會，精神了就繼續探索，直至死亡。

Python 資料分析視覺化

1 畫圖需要使用 matplotlib這個包如下 importmatplotlib.pyplotasplt year 1950,1970,1990,2010 pop 2.519,3.692,5.263,6.972 values 0,0.6,1.4,1.6,2.2,2.5,2.6,3.2,3.5,3...

資料分析與視覺化

1.pip包管理 1 內建庫包庫別人寫好的直接引用，加快開發效率。內建包 python直譯器內建常用功能庫。直譯器安裝目錄 lib資料夾下，os time urllib等資料夾裡有 init py 就成了乙個包。2 關於http模擬和html源解析 python時代 urllib url...

資料分析總結四視覺化與資料分析

資料視覺化資料視覺化的目的是讓資料更高效，讓讀者更高效閱讀，而不單是自己使用，突出資料背後的規律突出重要的因素，最後是美觀。散點圖主要解釋資料之間的規律。氣泡圖是散點圖的變種，引入了第三個度量作為氣泡的大小。維度作y軸，更傾向於洞察資料在不同類別下的資料規律消費金額和消費次數的關係消費...

資料分析與視覺化（python）

Python 資料分析視覺化

資料分析與視覺化

資料分析總結四 視覺化與資料分析

相關推薦

資料分析總結四視覺化與資料分析