為何機器學習的黃金時代才剛剛來臨

2021-07-06 06:40:59 字數 2461 閱讀 5589

雖然已被關於神經網路、人工智慧和機器學習的熱烈討論所包圍,但很多人都知道,這些方法根本沒有什麼新穎的東西。讓人疑惑的是,這些演算法和方法早在幾十年前就已經存在了演算法和方法,那麼為何現在才是它們如日中天的時候呢?
為了回答這個問題,我們先圍繞資料和工具來看看在過去的五年裡究竟發生了什麼。我們可以看到,可擴充套件的計算能力在急劇上公升,或者更確切地說,是每瓦特和每位元的效能。這兩個因素合併到一起,增加了發展的氣焰,而且日益發展的資料分析已經遠遠地超越了存在數十年的標準資料庫和計算方法。問題是,我們正處於「資料炒作」的風口浪尖——急於開發一系列的工具和框架(正如hadoop這個示例)來支援更大更複雜的資料集,然後再努力去增強新框架的資料分析效能。

因此,對於那些已經登上資料表現頂峰的公司和使用者,機器學習會成為他們下乙個方向麼?事實上,對大規模、複雜分析以及支撐它們的這些系統和框架的關注,促使了一些發展。但最終,可以得到這樣乙個結論,無論是學術界還是工業界,這些進步都已達到了自己的巔峰。這些從肥沃的「大資料」土壤裡成長的新方法和研究,也都得到了充分的訓練和測試。然而,對於一系列受限(但在增長)的工作負載而言,還有另一種解決複雜問題的思考方法。

這並不是說,那些能夠利用可擴充套件硬體的新機器學習方法沒有前進的研究和發展。但這有乙個更大的故事,patrick hall解釋道,他在統計軟體巨頭sas中擁有高階機器學習科學家(senior machine learning scientists)的獨特地位。他的頭銜值得注意,因為他正在尋找不能很好適用於經典統計建模方法(他所在公司的主要研究領域)問題的解決方法,目的是將這些方法整合到現有的企業產品中——至少能在某個點用到。

hall聲稱,雖然上述的所有趨勢正在推動機器學習走向最前沿,但這有乙個例外,也就是資料最終的體量特別大,使得統計分析方法已經難以發揮自身的優勢。再加上機器學習演算法的新發展,這意味著機器學習的**時代終於來臨了。

「『寬度大於長度』的資料集隨處可見——這些資料集列數大於行數,而且有更多的變數和觀測值。所有的這些都不利於傳統的統計方法,而且現在,有著相關變數的資料(例如,和影象資料有關的畫素)越來越多,甚至存在於文字挖掘中。」hall公正地說道。此外,大量的新資料**於資料缺失的資料集或是稀疏資料集,這些資料集中有用的資料不到整個集合的1%。

對於那些想要去投資分析傳統統計方法無法適用的資料的企業,這有很多的機會——其中乙個就是贊助初創公司和來自分析公司的新動機,這些公司似乎得到乙個資訊,把產品稱作是「機器學習」成果是一種流行的趨勢,即使只是對分析做了輕微的提公升。這造成了定義上的問題,沒有命名,而且一些糟糕的分析例項和bi(商業智慧型)公司也採用一樣過時的軟體,然後打上機器學習的標籤,僅僅是因為它聽起來比資料分析更具有魯棒性或者更複雜。這對於任何乙個新技術領域都是持續的疼痛,尤其是一種技術正在快速發展的時候。hall指出,使用者需要理解他們的資料和問題,一旦掌握了它們,那麼無論是標準統計還是資料庫解決方案,都能處理一些更靈活(可能有點複雜)的問題。

這並不是說所有傳統的統計公司和資料庫公司都在改變它的產品訊息,而不是提公升機器學習技術。sas在20世紀90年代末期引入了它的第一款資料探勘產品(企業版資料探勘),而且在當時,許多的機器學習模型也得到了大量的炒作(有神經網路、決策樹、k均值聚類等)。hall說,在當時,出現了一些使用企業資料倉儲的資料去擬合缺乏任何引數假設的模型的事蹟。因此,這並不是什麼新鮮事——但這種問題的範圍和數目正在不斷增加,即使是沒什麼預期結果。

在企業領域中,成熟的機器學習行業是銀行業,保險業和信用卡產業。有趣的是,這三個行業都是管制市場的例項,對不同的問題都有著對應的黑盒方法,這對監管者來說可能有些難以理解。「幸運的是,機器學習總有乙個折衷的方法。你可以把希望的結果理解成更加準確,這對於調控行業來說可能很困難,但最後他們把它看成是乙個機會,而且這個權衡的結果使他們感覺越來越舒服。」

hall和他所在的公司強烈的意識到他們必須在語言和產品水平上保持創新,以趕上乙個又乙個機器學習初創公司潮流的步伐。「目前,這的確是乙個備受關注的競爭,」他很贊成的說。「我們正在嘗試將我們的技術和機器學習的併發性和可擴充套件性應用到這些問題中,但這畢竟是sas,這意味著我們要受到語言語法的限制,老實說,好像過時了。」他說,即使這種技術比以往技術的魯棒性都要好,但sas仍然進退兩難,因為改變核心語法意味著美國運通(american express)和美國銀行(bank of america)的資料業務系統將會癱瘓。「我們能做的就是改變語法背後的執行,而且這也是我們現在正在做的。」

大型企業會如何去思考他們倉庫裡不能適用於標準回歸模型的所有賬單資料,這很難說。但為了公正起見,使用熟悉的框架和方法做更複雜的事情仍有其價值,特別是在尋找使用機器學習方法加強他們分析能力的監管行業,因為熟悉的框架和方法至少意味著會有乙個正式的、熟悉的基礎。這也正是sas希望其成功進軍機器學習大企業的地方——而對於一些新興的初創公司,則會有乙個艱難的時刻,主要體現在以過去的消費者為核心的影象和人臉識別、語音識別、或其它領域。

說已經看到機器學習**時代的黎明可能還為時過早,但遠處的地平線已經開始綻放光芒。鑑於對機器學習投入的資金量和關注,作為大資料工具和方法的下乙個重大合作夥伴,這似乎並不像是乙個擴充套件。

譯者簡介:劉帝偉,中南大學軟體學院在讀研究生,關注機器學習、資料探勘及生物資訊領域。

黃金時代 深度學習 多目標跟蹤 2021

long term tracking with meta updater ltmu 2020 長時跟蹤資料集有 深度學習基礎的短時跟蹤,往往都從 one shot learning和online learning兩個角度 one shot學習如 siamfc siamrpn 等速度會更加快 splt...

資訊保安產業的黃金時代來臨?

英特爾宣布將以每股48美元現金收購安全軟體公司mcafee,此筆交易總值將達約76.8億美元,這是有史以來針對資訊保安公司規模最大的收購。這筆收購出乎很多人的意料,因為英特爾作為全球最大的硬體廠商,卻選擇收購了與其業務沒有太多直接聯絡的資訊保安公司。針對投資者的疑慮,英特爾ceo保羅 歐德寧 pau...

中國技術研發創新的黃金時代到來

未來10 20年是國內技術快速發展,趕超發達國家的 時代,中國民族真正騰飛的原因是經濟運作機制的創新,他的成功標誌將是通過技術創新科技領先於世界強國。1 國內製造業高度發展,各種鼓勵創新的機制已初步形成,創造了良好的應用需求市場環境。2 國內企業家通過製造業積累了很多企業運作經驗和運作資金,解決了溫...