zw「小資料」理論也碰上了「黑天鵝」

2022-09-07 08:51:10 字數 714 閱讀 4395

4月上旬,在blog《大資料和高頻量化交易 》,我們曾經說過:

實戰測試,資料越多,反而會影響精度。目前個人資料分析的乙個重點,就是「小」資料。老子《道德經·第六十三章》有云:天下大事,必做於細。

我在乙個blog上面也找到了數學支援,龍格現象,龍格現象

::維度越多,可供單一維度的資料量就也少,反而會影響分析結果.

才兩個月,今天在csdn,zw的「小資料」理論,也碰到黑天鵝

《機器學習:更多的資料總是優於更好的演算法嗎?》

netflix公司工程總監x**ier

amatriain認為,增加更多的樣本到訓練集很多時候並不會提高模型的效能,我們需要的是好的方法,來幫助我們理解如何解釋資料,模型,以及兩者的侷限性,這都是為了得到最好的輸出。 

自從4月,zw「大資料」系列blog發布以來,才兩個月,僅僅與zw發布的blog相關的「黑天鵝」事件,就不下十餘件

歷史總是在不斷重複

【黑天鵝才是新常態】

金融市場 大家都是大資料 會反向干擾態勢的

現在(2015) 黑天鵝才是新常態

看看:石油** 瑞士法郎 日元公升值 光大砸盤

**狂跌

全部沒節操 沒下限

參見《大資料與黑天鵝等》

大資料理論

最小的基本單位是 bit,按順序給出所有單位 bit byte kb mb gb tb pb eb zb yb bb nb db。特徵容量 volume 資料的大小決定所考慮的資料的價值和 潛在的資訊 種類 variety 資料型別的多樣性 速度 velocity 指獲得資料的速度 可變性 vari...

關係資料理論

關係資料模式可能存在的問題是 1.資料冗餘 2.更新異常 3.插入異常 4.刪除異常乙個好的關係模式應當不會發生插入異常 刪除異常和更新異常,資料冗餘應該盡可能的少。函式依賴和別的資料依賴一樣是語義範疇的概念,只能根據語義來確定乙個函式依賴。若r屬於1nf,且每乙個非主屬性完全函式依賴於任何乙個候選...

大資料理論基礎

python基礎 linux ubuntu 作業系統基礎 volume 大量 資料的大小決定所考慮的資料的價值和潛在的資訊 velocity 高速 指獲得資料的速度 variety 多樣 指資料型別的多樣性 value 價值 合理運用大資料,以低成本創造 值 veracity 真實性 資料的質量 1...