大資料理論基礎

2021-10-13 07:21:04 字數 3831 閱讀 9085

python基礎

linux & ubuntu 作業系統基礎

volume(大量)——資料的大小決定所考慮的資料的價值和潛在的資訊;

velocity(高速)——指獲得資料的速度;

variety(多樣)——指資料型別的多樣性;

value(價值)——合理運用大資料,以低成本創造**值;

veracity(真實性)——資料的質量;

1.分而治之

2.平行計算

3.計算向資料移動

4.資料本地化讀取

將單一節點的龐大任務由分布式網路將任務分配給每個單一計算機進行並行處理計算。

簡單的來說

資料分析主要通過統計學,計算方法處理,偏重業務,得出的結論偏向與結果(例如:某寶某商品某顏色商品銷售量佔比)為決策者提供資料依據

資料探勘主要通過機器學習,人工智慧,由編寫的演算法輸入一組引數,得出一組引數,偏重技術。包含對未來的**,趨勢等

分布式網路中的每台機器都能儲存和處理資料,降低了對機器效能的要求,所以不必購買昂貴的高效能機器,這大大降低了硬體投資成本;

擴充套件性極佳。在當前系統儲存或計算能力不足時,可以簡單地通過增加廉價pc機的方式來增加系統的處理和儲存能力;

處理能力極強。龐大的計算任務可以在合理分割後由分布式網路中的機器並行地處理

a.神經網路方法。神經網路是模擬人類的形象直覺思維,在生物神經網路研究的基礎上,根據生物神經元和神經網路的特點,通過簡化、歸納、提煉總結出來的一類並行處理網路,利用其非線性對映的思想和並行處理的方法,用神經網路本身結構來表達輸入和輸出的關聯知識。

b.粗糙集方法。粗糙集理論是一種研究不精確、不確定知識的數學工具。粗糙集處理的物件是類似二維關係表的資訊表。從經過歸約後的知識庫抽取得到更有價值、更準確的一系列規則。因此,基於粗糙集的資料探勘演算法實際上就是對大量資料構成的資訊系統進行約簡,得到一種屬性歸約集的過程,最後抽取規則。

c.決策樹方法。決策樹是一種常用於**模型的演算法,它通過一系列規則將大量資料有目的分類,從中找到一些有價值的、潛在的資訊。

d.遺傳演算法。遺傳演算法是一種基於生物自然選擇與遺傳機理的隨機搜尋演算法。

python 函式式程式設計,常用高階函式,包括 map 函式、reduce 函式、filter 函式及模組相

乙個函式就可以接收另乙個函式作為引數,這種函式就稱之為高階函式。

高階函式

// abs為絕對值函式

def add

(a,b,f)

:return

f(x)+f

(y)print

(add(-

5,5,abs)

)

map/reduce

// map傳入兩個引數,第乙個為函式,第二個為惰性序列,整個序列計算後返回乙個list

def f

(x):

return x*x

r =map

(f,[1,

2,3,

4,5,

6,7,

8])print

(list

(r))

[1, 4, 9, 16, 25, 36, 49, 64]

//reduce(f, [x1, x2, x3, x4]) = f(f(f(x1, x2), x3), x4)

from functools import reduce

def f

(x,y)

:return x *

10+ y

r =reduce

(f,[1,

3,5,

7,9]

)print

(r)

//縫合怪

from functools import reduce

def fn

(x, y)

:return x *

10+ y

def char2num

(s):

digits =

return digits[s]

r =reduce

(fn,

map(char2num,

'13579'))

print

(r)

filter函式

// filter接受兩個引數,乙個為函式,乙個序列,filter()會將函式依次作用與每個元素,根據返回的ture or false 決定保留還是丟棄元素

def jishu

(n)return n%2==

1r =

list

(filter

(jishu,[1

,2,3

,4,5

,6,7

,8,9

]))print

(list

(r))

[1,3,5,7,9]

關功能python 物件導向程式設計特性,包括類和例項、繼承、多型

利用 python 鏈結資料庫 python 視覺化常用包及其基本使用方法

linux並不是作業系統,而是作業系統的核心。

ubuntu是基於linux核心的桌面pc作業系統。

ls 列出當前目錄檔案(不包括隱含檔案)

ls -a 列出當前目錄檔案(包括隱含檔案)

ls -l 列出當前目錄下檔案的詳細資訊

cd … 回當前目錄的上一級目錄

cd - 回上一次所在的目錄

cd ~ 或 cd 回當前使用者的宿主目錄

mkdir 目錄名 建立乙個目錄

rmdir 空目錄名 刪除乙個空目錄

rm 檔名 檔名 刪除乙個檔案或多個檔案

rm -rf 非空目錄名 刪除乙個非空目錄下的一切

mv 路經/檔案 /經/檔案移動相對路經下的檔案到絕對路經下

mv 檔名 新名稱 在當前目錄下改名

find 路經 -name 「字串」 查詢路經所在範圍內滿足字串匹配的檔案和目錄

kill 程序號(就是ps -a中的第一列的數字)或者 killall 程序名( 殺死乙個程序)

kill -9 程序號 #強制殺死乙個程序

tar -c 建立包 –x 釋放包 -v 顯示命令過程 –z 代表壓縮包

tar –cvf benet.tar /home/benet 把/home/benet目錄打包

tar –zcvf benet.tar.gz /mnt 把目錄打包並壓縮

tar –zxvf benet.tar.gz 壓縮包的檔案解壓恢復

tar –jxvf benet.tar.bz2 解壓縮

ssh是一種網路協議,用於計算機之間的加密登入。如果乙個使用者從本地計算機,使用ssh協議登入另一台遠端計算機

(1)遠端主機收到使用者的登入請求,把自己的公鑰發給使用者。

(2)使用者使用這個公鑰,將登入密碼加密後,傳送回來。

(3)遠端主機用自己的私鑰,解密登入密碼,如果密碼正確,就同意使用者登入。

輸入ifconfig,正常來說會返回下面這樣兩個網絡卡,乙個eth0,乙個lo,不需要管,eth0就是本機的ip

如果我們想要修改這個ip,可以輸入命令:

vi /etc/sysconfig/network-scripts/ifcfg-eth0

修改完成後需要重啟服務:/etc/init.d/network restart命令即可。

然後再通過ifconfig檢視當前ip

網絡卡配置完,如果想要上網,還需要修改dns

利用 ssh 基於密匙的安全驗證進行多個節點間的無密碼登陸

shell 命令進行 linux 操作,如 awk、grep、sed 典型的文字處理工具

大資料理論

最小的基本單位是 bit,按順序給出所有單位 bit byte kb mb gb tb pb eb zb yb bb nb db。特徵容量 volume 資料的大小決定所考慮的資料的價值和 潛在的資訊 種類 variety 資料型別的多樣性 速度 velocity 指獲得資料的速度 可變性 vari...

TCP IP理論基礎

一 tcp ip的分層模型 osi協議參考模型,它是基於國際標準化組織 iso 的建議發展起來的,它分為7個層次 應用層 表示層 會話層 傳輸層 網路層 資料鏈路層及物理層。這個7層的協議模型雖然規定得非常細緻和完善,但在實際中卻得不到廣泛的應用,其重要的原因之一就在於它過於複雜。但它仍是此後很多協...

TCP IP理論基礎

linux中網路棧的介紹一般分為四層的internet模型。分別為應用層 傳輸層 網際層和網路介面。tcp ip實際上是乙個協同工作的通訊家族,為網路資料通訊提供通路。為方便將tcp ip協議族大致上分為三部分 1.internet協議 ip 這一部分也稱為網路層。主要包括ip icmp和arp。其...