「大資料」還不等於「大智慧型」

2021-09-23 04:34:13 字數 4033 閱讀 1532

zdnet至頂網伺服器頻道 01月14日 新聞訊息:技術開發商和**早早地為我們描繪了乙個即將來臨的「大資料時代」。「大資料」無所不知無所不能;有了「大資料」的支援,公司執行效率突飛猛進;「大資料」還能幫你做出最明智的決策,使你的公司所向披靡。簡直不要太棒!但是在這裡提醒各位,正如所有的高科技宣傳一樣,「大資料」也不可避免地被炒作誇大。於是,你還相信未來嗎?

近幾年以來,「大資料」已經傳得沸沸揚揚。技術開發商和**記者鋪天蓋地式的宣傳,你怎麼可能不知道「大資料」?即使不知道也總會聽說過。讓我們來看看他們是怎麼大力宣傳所謂的「大資料」:「大資料」無所不知無所不能;有了「大資料」的支援,公司執行效率突飛猛進;「大資料」還能幫助你了解資料,做出最明智的決策,使你的公司時刻都充滿了競爭優勢。

多麼具有**力的宣傳!當然我們不能百分之百地說報道違背了事實。只是人們對於高科技的宣傳總是過於樂觀超前。事實上,很多公司都發現以目前的條件實現「大資料」困難重重,理想很豐滿,現實卻很骨感。的確,在資料的收集和處理方面,可能具有可觀的優勢。但真正的使用這些資料、乃至借助這些制定更優化的決策則完全又是另一回事。那麼問題出在**呢?多數公司表示在「大資料」和對大資料的「大理解」之間,缺少了某個重要的聯絡。如果這個問題得不到解決,那麼人們只是空有一堆看似有用的資料,卻難以從中挖掘出有用的價值。

正如矽谷的一名資深業內人士最近透露,儘管從近日創業公司的活動和融資情況來看,大資料的資料採集和處理似乎受到廣泛關注,但是現實和預期之間的巨大差距依然無法視而不見。他說,「大資料還沒有真正轉化為大認識、大洞見和大智慧型。」以他們的**,我們離真正的「大資料」時代還有很長的一段路要走。

炒作和現實,不可混為一談

我們希望從大資料中獲取價值的方法越簡單越好,比如匯入資料,執行程式,最後得出富有遠見的結論。你覺得這可能嗎?如果智慧型那麼容易獲得,那人人都可以是賈伯斯了。事實上,從大資料中獲得有價值的資訊遠比「匯入、執行、輸出三部曲」要複雜得多。「《資料**:大資料戰略》(data divination:big data strategies)」一書的作者帕姆·貝克(pam baker)說,資料直接給出答案的例項確實存在,但只存在於特定的情況下,鮮有發生。我們不能寄希望於例外,我們需要的是普遍規律。

「也許,有人會辯解說,我們可以舉出很多例子,在這些例子中,資料往往可以給出非常明確的答案。比如**分析學可以精確地**出飛機或供水系統中的某個零部件的報廢時間,還能告訴我們替換零部件的最佳時間,以便於在舊部件報廢之前最大化地利用其剩餘價值。」貝克解釋道。

「但是,」她馬上又強調,「更多的情況下,我們是沒有辦法直接獲得想要的答案的。你可以從諸多可能的行為中選擇乙個或者什麼都不做,具體情況具體分析,這才是我們所面臨的真實情況。」

貝克一語中的。一些基於資料的決策的確是這樣。資料不是「冰冷的數字」,它們是「多愁善感的精靈」,正如布魯斯·斯普林斯汀在一首歌中唱道,它們需要「一點點的人情味」。人們可以通過開發良好的指標和強大的演算法來挖掘資料。但這遠遠不夠,人們必須通過自己的認識和見解才能真正地了解資料的「內心世界」,才能充分利用資料背後的價值。有的資料很「直白」,有的卻很「委婉」,我們不能一概而論。

演算法的侷限性

進一步說,我們更希望大資料可以讓企業使用者直接即時地訪問資料,這樣他們就可以隨時隨地、有如神助般的做出每乙個最佳決策。願望是美好的,只不過以我們當前的技術條件來看,我們還達不到這麼複雜神奇的水平。

要做到這一點,首先我們需要足夠多的資料專家來幫助我們分析處理資料,從大量的資訊中提取出有效資訊。同kholsa ventures一道投資了數家大資料技術公司(例如parstream)的投資者基斯·拉波斯表示,公司非常需要乙個資料專家來指導處理複雜資料分析,只不過大多數的企業使用者很難做到這一點。

拉波斯說,你會需要這些資料專家來開發應用和演算法,承擔大量的資料研究任務。但是在已經擁有這些資料專家的公司裡,這些資料專家也並非一直在從事這些高階複雜的資料工作,大概部分原因是由於他們需要花時間去處理一些比較簡單的資料分析。資料專家的才能在這裡大大地被埋沒了。

在最理想的情況下,拉波斯繼續說道,資料專家開發出一套工具,當有一方需要答案時可以迅速地在整個組織裡尋找分析的答案。在現今這個時代,速度就是一切。我們最不希望看到發生的事情就是,當我們急切地需要答案時,我們只能寄希望於資料專家,然後被動地等待。

出發點固然是好的,但問題在於即使是最聰明的人開發出了最複雜的演算法,對於複雜的問題仍然沒有最直接的答案。無論多麼複雜的演算法,也無法做到全盤考慮,對於難以衡量的特定因素更加束手無策。如果某個演算法可以全部做到這些,那就無異於人類的大腦,屆時麻煩可能更大了。

我需要乙個優秀的「中場手」

棒球比賽可以幫助我們更好地理解演算法的侷限性——水平相當的兩個選手,他們的表現可以相去甚遠。資料極客們會告訴你,經過多年的研究開發,他們創造了sabermetrics演算法,可以為你提供挑選最佳球手所需要的所有決策資訊。他們還開發了一整個系列的資料統計演算法,比如「替換勝率(wins above replacement)」。fangraphs對「替換勝率」的解釋如下:「如果某乙個隊員負傷不能上場,他們的球隊不得不找乙個次級棒球聯賽球隊隊員或者『稍遜一籌』的板凳球員做替補時,損失有多少?」對此,他們採用了一系列標準來衡量計算兩者之間的勝率差別。

這種複雜的演算法若是僅僅用來準確地衡量球員的價值,那倒是沒什麼大問題。但是有些問題,比如某個球員在壓力下的表現如何?他是否刻苦練習?他是哪一種型別的隊長?又或者他跟隊員的相處配合得如何?所有這些問題該怎麼用演算法去計算?難道這些問題就不重要了嗎?如果要納入演算法的考慮範圍,又要怎麼去量化這些因素呢?

純資料分析的追隨者會告訴你一切都可以量化,也許他們說的沒錯。但是我也的確看到過很多水平相當的選手,在幾乎相同的條件下,他們的表現是有差距的,儘管從資料分析上來看他們的表現應該很接近。

在企業中,人力資源專家在招聘自由程式設計師時也會遇到類似棒球選手的情況。你可能會有兩個專業技能水平相當的應聘者前來應聘該職位,但其中一人的人際關係技能更勝一籌,能夠很好地與同事合作,而另乙個應聘者則難以相處和合作,顯然僅從簡歷中很難看出這些「軟實力」。即使有大量的資料支援,也很難顧及到方方面面可能產生的結果,尤其又涉及到人的時候。

差之毫釐謬之千里

任何乙個負責任的醫生都會嚴謹地告訴你,即使兩個病人的症狀非常相似,採取的**手段也不會相同,仍需要嚴格按照個體的差異性來決定,年齡、體重、其他的健康問題和特殊因素等等,都會影響最終的**效果。

就拿醫療過程中使用的智慧型分析平台ibm watson來說。當我向乙個朋友說起最近有的醫生開始採用watson輔助診斷和制定療程時,他立刻炸毛了。他堅決表示自己的健康問題和**手段不需要一台機器來決定。他的擔心完全在理,但是在watson的例子中,這台機器並沒有直接給醫生提供可以盲從的答案,只是根據已有的跡象、患者資訊、病症再結合當前對此病症的科學研究結果,給出**的參考方案而已。

正如我之前描述的資料專家的情況一樣,醫生們同樣也很忙碌,他們不可能一邊給患者看病一邊還要熟知自己領域的所有最新進展。相關的研究實在太多了(當然這是一件好事)。所以他們需要watson的輔助。watson能夠快速地過濾目前的研究,但是仍然需要醫生根據實際情況來決定最終的**方向。我更願意把這個過程稱為科學中的藝術。知識給我們帶來了無限的可能性,但最終的決定權仍在於醫生而不是機器。

企業同樣也會面臨類似不確定性,這時候就需要人的介入,運用他們的知識,借助資料的力量,為不確定性做出決策。

未來我們能走多遠?

很多時候機器可以給出人們需要耗費數年時間才能得出的答案和遠見。貝克指出,比如大資料已經在幫助我們更深刻地了解疾病,尤其是癌症,有很多方面都是人類研究人員從未涉及過的。「沒有大資料給我們提供足夠的資料資訊,我們永遠都不會找到最佳**方案(至少最近幾年毫無希望)。在這裡,我想說的是,大資料『的確』可以十分精準。」

而且她還相信機器的學習能力在不遠的將來一定會達到乙個足夠成熟的階段。屆時機器或許可以替我們做更多的決策,因為人類的大腦能力畢竟有限,無法一下子處理所有的可用資訊。

我不能說她的預想是錯誤的,然而就目前看來,採集和處理資料的能力遠遠超過了對這些資料的理解能力。貝克也談到,**分析一直在前進發展,有時候資料可以直接給出答案,但在更多的情況下,這仍然是乙個複雜的人機互動過程。即使技術在不斷向前發展,這兩者之間如何才能完美的合作仍是乙個難題。

除非我們能從中找到乙個折中的辦法或者機器的技術能有大幅度的提公升,否則我們仍將面臨乙個智慧型的鴻溝,需要時間和技術的進步來慢慢填補。

原文發布時間為:2023年01月14日

守著大資料金礦,不等於會挖金子

支付寶的一場社交化試水最終以道歉收場。11月29日晚,支付寶母公司螞蟻金服董事長彭蕾以公開信的方式,正式回應了這兩天因 校園日記 等圈子引發的 質疑。彭蕾在信中說,自己做錯的事,永遠不要怪別人!阿里巴巴董事局主席馬雲隨後也在內網中發聲 阿里人,學習反思和自查。這樣的圈子,能帶給支付寶想要的東西嗎?恰...

找出A表中不等於B表的資料

a,b兩表,找到id欄位中,存在a表,但不存在b表的資料。a表有13w資料,去重後3w。b表共2w資料 且有索引 方法一 not in 易於理解 速度慢select distinct a.id from a where id notin select id from b 方法二 is not nul...

關於sql用 不等於查詢資料不對問題

平常查詢資料 select from home where night flag 1 當想要查詢 不等於1 的資料的時候,一般會這樣查詢 select from home where night flag 1 此處查詢結果沒查到所有想要的結果,如果night flag 列資料為 null時,此行資料...