大資料時代 資料收集比資料探勘更有意義

2021-08-18 17:30:43 字數 1407 閱讀 6238

按照今天資訊科技的發達程度,資料收集看起來很容易。乙個攝像頭每天收集多少資訊?空間跑著那麼多衛星,它們每天收集多少資訊?好像不用愁沒有資訊。而資料探勘要從繁雜的資訊中尋找知識,就很困難了。但是,事情可能不是那麼簡單。在某些情況下,資料收集可能比資料探勘更難、更有意義。

不竟想起所謂「費公尺悖論(fermi paradox)」。2023年的一天,諾貝爾獎獲得者、物理學家費公尺在和別人討論飛碟及外星人問題時,突然冒出一句:「如果有外星人,他們為什麼沒在這裡?」這句看似簡單的問話,就是著名的「費公尺悖論」。如果認為在如此廣闊的宇宙中(上百億光年的空間,約700萬億億顆恆星),在如此漫長的時間裡(100億~160億年),全宇宙總共只誕生了太陽系的地球這唯一的文明,這聽起來無論如何總是極端武斷的。那麼,總該有乙個兩個外星文明被我們發現,或到地球來訪問過了吧?為什麼它們至今仍然是沉默的呢?人類能用100萬年的時間飛往銀河系各個星球,那麼,外星人只要比人類早進化100萬年,現在就應該來到地球了。迄今為止,仍然缺乏任何被科學共同體接受的證據,能夠證明地外文明的存在;另一方面,科學共同體也無法提出任何令人信服的證據,能夠證明外星文明不存在,這就使得「費公尺悖論」成為乙個極端開放的問題

我們學偏微分方程的時候,總是要先論證某一類方程解的存在性。知道解的存在,才能去求解。可是,不求出解來,怎麼知道解是存在的呢?這就是乙個悖論。對存在的資料集應用演算法過去是產生新發現的有效方法,而現在新知識可以使用可用的材料資源創造財富,比累積新資源更有效。過去,生物學家,天文學家和宇宙學家從歷史資料中找發現,考古學家艱難地去挖掘。現在,他們可以重建所有的廢墟和人工製品,從衛星和航拍影象偵察到的表面跟蹤想象出來。研究(research)就真成了重新搜尋(re-search)。

聯想到馬航mh370失聯事件。2023年3月8日凌晨1時20分,由馬來西亞吉隆坡飛往中國北京的馬來西亞航空公司mh370航班與地面失去聯絡,機上239人中有154名中國籍乘客。此事已經過去35天,先後26個國家參加搜尋,出動幾百架次飛機和**、商船,花費超過5000萬美元。先說在南海,折騰了10多天一無所獲;有人根據衛星影象說是在吉爾吉斯西北部的塔拉斯州州府以南約30公里處的山谷裡;後來又說是在印度洋;反覆折騰,試圖收集mh370的資料,但是,至今沒找到。按理說,有關的資料多的是,即使是這35天的衛星資料、搜尋飛機得到的資料,不可謂不大,不管你怎麼去挖掘這些資料,你也得不到任何mh370的資料。這個例子說明,在某些情況下,資料收集比資料探勘更難、更有意義,因為這種資料收集就是發現。這裡的資料分析是和政治有關的,甚至說,資料收集的過程也與政治有關。不要認為,大資料能解決一切。而在資料收集中,硬體技術不可缺少。我們國家在硬體技術和生產方面應該承認差距,加強研究、製造和發展。

bingdata優網助幫匯聚多平台採集的海量資料,通過大資料技術的分析及**能力為企業提供智慧型化的資料分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。

大資料時代 資料該如何保護?

隨著資料發掘的不斷深入和在各行業應用的不斷推進,大資料安全的 脆弱性 逐漸凸顯,國內外資料洩露事件頻發,使用者隱私受到極大挑戰。而且在大資料環境下隱私洩露的危險,不僅僅在於洩露本身,還在於基於資料對下一步行動的 和判斷,因此大資料時代的隱私保護儼然成為大資料應用發展的一項重要課題。目前隱私資料洩露的...

大資料時代,資料資訊的無處遁形

作者 小天 資料探勘,英文名叫data mining,一般是指從大型資料庫中將隱藏的 資訊抽取出來的過程,而更為精確的解釋則是 從資料中挖掘知識 這個概念乍眼一看有點懵,小天舉個栗子解釋,相信就比較容易理解 假如某東需要 使用者在未來5天內的購買需求,以達到精準營銷的目的,那麼此時完全可以借助資料探...

大資料時代,資料資訊的無處遁形

作者 資料與演算法之美 資料探勘,英文名叫data mining,一般是指從大型資料庫中將隱藏的 資訊抽取出來的過程,而更為精確的解釋則是 從資料中挖掘知識 這個概念乍眼一看有點懵,小天舉個栗子解釋,相信就比較容易理解 假如某東需要 使用者在未來5天內的購買需求,以達到精準營銷的目的,那麼此時完全可...