機器學習基礎 資料視覺化

2021-08-21 20:33:42 字數 880 閱讀 7097

#資料視覺化

資料視覺化是大資料領域非常倚重的一項技術,但由於業內浮躁的大環境影響,這項技術的地位漸漸有些尷尬。尤其是在諸如態勢感知、威脅情報等應用中,簡陋的視覺化效果太醜,過於華麗的視覺化效果只能忽悠忽悠外行,而給內行的感覺就是刻意為之、華而不實。

曾幾何時,視覺化技術不過是一種資料分析的手段罷了。慚愧的說就是我們的演算法還不夠智慧型,必須依靠人類的智慧型介入分析。所以,需要通過視覺化技術把高維空間中的資料以二維或三維的形式展示給我們這樣的低維生物看,展示的效果如何也就直接決定著我們分析的難度。

##從sne到t-sne再到largevis的總結

拋開浮躁的大環境,在資料視覺化領域還是有人踏踏實實做研究的,比如深度學習大牛hinton(sne)、maaten(t-sne)還有唐建大神(largevis,新鮮出爐,www』16最佳**提名)。

sne奠定了乙個非常牢靠的基礎,卻遺留了乙個棘手的擁擠問題;

t-sne用t分布巧妙的解決了擁擠問題,並採用了多種樹演算法改進演算法效率;

largevis在t-sne改進演算法的基礎上,參考了近年來較為新穎的優化技巧,如隨機投影樹、負取樣、邊取樣(實質也是負取樣)等,直接將訓練的時間複雜度降至線性級。

在表示學習和深度學習如此火熱的年代,任何一種經典的模型或方法都有可能在其他領域發揮不可思議的妙用。word2vec中的skip-gram模型和負取樣優化技術在largevis中的應用就是很好的證明。

值得一提的是,maaten提出t-sne的時間是2023年,進一步改進t-sne的時間是2023年,唐建提出line和largevis的時間分別是2023年和2023年。從這個角度看,t-sne還是乙個非常經典的演算法,畢竟傲視群雄了這麼多年……不過從另乙個角度看,科研之路漫漫,一項值得稱道的技術或改進不是一蹴而就的,是要經過長時間積累和沉澱的。

參考資料:

機器學習之資料視覺化 Matplotlib基本用法

二 關於matplotlib的所有操作 總結機器學習中資料的視覺化是我們必不可少的工具,今天我們來學習matplotlib的基本畫圖操作。matplotlib中我們只需要借助matplotlib.pyplot進行資料視覺化,首先引入第三方庫。import matplotlib.pyplot as p...

資料視覺化 什麼是資料視覺化

資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...

資料視覺化

資料視覺化主要旨在借助於圖形化手段,清晰有效地傳達與溝通資訊。但是,這並不就意味著資料視覺化就一定因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端複雜。為了有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又複雜的 資料集...