出走的門徒之六 第四正規化 戴文淵 先知登場

2021-09-14 01:34:51 字數 4783 閱讀 2576

開發十年,就只剩下這套架構體系了! >>>

風口不會隨便眷顧乙個人。因為歷史不會對默默「打怪公升級」著墨,它只看結果。

在阿西莫夫的代表作《基地》中,除了先知謝頓貫穿全線,其他主角都是門徒。他們內在為直覺所驅動,外在被時代所推動。他們在歷史上的出場毫無徵兆,卻在潮流中游刃有餘。你會驚嘆,為什麼是他?

從五道口出發,大概地鐵十分鐘、或者走路乙個半小時,就能到達地球中心「上地」。當你走過這裡的街道就會發現,挖掘機在冬天揮著大爪子尋找青草的味道,麻辣燙和烤串的香味即使在白天也勾搭誘人。

在這裡,吃和住解決了,這幫人就開始琢磨著改變世界。他們會一邊擼著串,一邊聊著怎麼樣讓使用者每天對著冰箱說話,「10元錢+2小時」能不能同時解決產品封裝和一頓晚飯,以及你怎麼判斷正在烤串的大爺是不是乙個人工智慧。到了夜晚,他們一邊看著凌晨2點的北京,一邊坐車到回血點——回龍觀完成新一輪的公升級。

這裡,聚集了目前中國技術最好的一批人,空氣中都漂浮著未來的味道。

戴文淵從最開始背靠香港,還是決定,在兩年前把公司搬到了上地。然後,目前能支援超大規模集群以及資料量的人工智慧應用者開發平台——「先知」,在這裡降臨。

如果回頭看戴文淵的這十幾年就會發現,所謂先知,並不見得是可以某一次時,比別人先走三步;而是在趨勢開始前,永遠可以精準地先走半步。

沈南鵬在第一輪就投了第四正規化。那是在2023年,當戴文淵把所有要幹什麼都說完之後,沈南鵬問,「你有什麼問題想問我的?」戴文淵就問,你怎麼看待我們做的這個事情。現在回憶起來,戴文淵依然記得當時沈南鵬說,「我其實不太關心你們做的是什麼。在創業的初期階段,相較於具體的業務,我更關心你的團隊。」

紅杉投資看人。2年過去,說起這一幕,戴文淵說,如果現在再見到沈南鵬,「我很想告訴他,我還在做當時的那個事情」。

所謂「當時那個事情」,戴文淵是在2023年入坑的。彼時,他獲得了2023年acm國際大學生程式設計競賽世界冠軍。這項由美國計算機協會(acm)主辦、被稱為計算機界奧林匹克,一般描述是「入門之後基本拿獎靠智商,拿到銀牌就能成為offer收割機」。

那會,上海交通大學計算機系有乙個實驗班,學生大三就可以按個人喜好選擇實驗室。戴文淵在外備賽,等結束時,像圖形學(即cg)等熱門方向都選完了,只剩下冷門的人工智慧沒有人選。「那個年代,沒有人相信ai能做成。」戴文淵說。

在學術界,戴文淵多走了的半步,叫做遷移學習。

如今,在遷移學習領域,**引用數排名第一的,是戴文淵的導師、香港科技大學計算機系教授楊強,華人界首位國際人工智慧協會院士。而戴文淵,憑藉10年前發表的一篇**(boosting for transfer learning),單篇**引用排名世界第三。

但在當時那個年代,整個ai學界都是基於凸優化(機器學習中的最優化問題)做ai研究。參加學界會議,一半的人都在研究最優化,就和現在一半的人都在做深度學習一樣。

而且,即便是深入多年的學者,自己也不相信基於這條路,ai可以做出來。可以建出非常好的數學體系,卻沒有能力為它提供知識的內容。我國自動化領域的領軍者王飛躍教授曾說,「到2023年,人工智慧領域在中國幾乎沒人了,全走了。」當時甚至有乙個說法,做人工智慧的全都是吹牛的。

走這樣一條學術的路徑,做出來的效果和乙個3歲小孩的認知力相比,還差的很遠。那為什麼不去學習3歲的小孩怎麼思考?人是基於神經的學習,為什麼ai不能用神經網路做?楊強帶著戴文淵,在沒有太多經費支援的情況下,硬是把這個方向堅持了下來。

alphago就是典型3歲孩子獲取知識的思路。「所基於的人工智慧技術,強項不在於推演,而是借鑑過去見過的局面。所以,如果要擊敗alphago,需要盡可能把局面導向歷史上沒人下過的棋。」在alphago和李世石對弈第一局後,戴文淵在知乎上回答。他還不忘提醒,想要不敗,需要注意控制自己的心魔。

結局大家都知道了。在「虐」完李世石之後,alphago橫掃了圍棋界,然後又在德州撲克中成為「賭神」。這時候大家一下子都懵了,原來「演算法+大資料」可以讓人工智慧這麼猛。

這一點,在2023年戴文淵就認識到了。多年的積累和強大的判斷力,讓他意識到資料在ai這條路上的強大助力。用他自己的話說,「這時候一些大型網際網路公司,資料的累加對人工智慧會做的貢獻,開始比在學術圈做演算法的技巧,更有意義,會有最大的提公升」。

對於趨勢的判斷,他有著不容反駁的自信。「我一直是做ai,十幾年了。對這個行業應該做什麼事、處於什麼狀態,有自己的判斷,我不會在十幾年前做這個事情,那時候技術還不足以支撐。」

在將ai產品化的階段,戴文淵多走的那半步,是更早認識到了資料的魔力,證明ai是可以「for someone」的。

在華為也是一樣。剛到華為的時候,華為正在與國際巨頭爭奪自己在金融領域的話語權,「去銀行爭解決方案,那個階段的華為贏面並不大」有一次,在離給客戶承諾的時間還有2星期時,乙個問題當時的工程師怎麼都除錯不出來,大家壓力都非常大。

那會戴文淵已經有3年沒有寫過**,他花了15分鐘把**寫完並解決了。對於幫華為在金融領域鑿開口子這一點,戴文淵頗為滿意。那一仗打得非常漂亮,華為最終競標成功。

然而,攻城略地的日子很快就沒了。等到快離開華為的時候,他似乎每天只需要工作1天,其他時候就是打卡。要是在知乎上回答問題,戴文淵最適合的大概有兩個,第乙個是「在大公司最年輕的t10科學家位子上混吃等死是種什麼樣的感受」,第二個是「喜歡安逸的金牛座如何跳出自己的舒適區」。

這個穿著格仔襯衫、戴著黑框眼鏡、談吐娓娓溫和的年輕人,骨子裡有著一開口就能感受到的「不安分」。

「我希望做ai的能量更大一些」。戴文淵說。在ai工業化階段,他正在試圖再多走半步,證明ai可以for everyone。

2023年7月,第四正規化發布了一款人工智慧開發平台「先知」,這是ai領域首個面向應用者的開發平台。第四正規化對先知設定了引數自動化的演算法,並搭建了比spark快數百倍的機器學習的基礎架構,它降低了人工參與的特徵工程和模型訓練過程,還能提供自動或半自動的特徵工程、模型選擇調參工具,降低了對資料科學家的依賴。

用戴文淵的話說,就是乙個完全不懂技術的小白,大概經歷2周的時間,就可以成為乙個ai專家。去年年底,戴文淵利用這個平台在公司內部做了乙個叫做「一顆賽艇」的競賽,這估計是全球首個非專業人士參加的人工智慧建模大賽。這場特殊的比賽,對參賽選手唯一的身份要求 ,便是非「資料科學家」、非「建模工程師」;此前,縱然人工智慧攻陷了圍棋、撲克領域,也沒有任何乙個公司敢挑戰「讓普通人做出alphago」這一難題。

在沒有經過任何專業培訓的情況下,這些銷售、市場、公關等非專業人士中,有超過70%的參賽組合auc成績(auc是衡量模型效果的專業指標,取值在0到1之間)跨過0.8大關。在實際業務中,凡是auc高於0.8的模型就已經達到工業水準;而在整個行業中,只有極少數深耕機器學習多年、擁有豐富大規模資料處理經驗的資料「大神們」才能搭建出auc0.8以上的模型。

「但先知這個平台,在我的心中還沒有及格,路還很長。我們還有30%的人經過了培訓沒有做到」。戴文淵說,過去一段時間,公司把較多精力放在了機器學習的演算法。「現在的門檻不是演算法,是資料怎麼樣能和平台實現無縫對接。」

他滿腦子都在想,怎麼樣通過降門檻、降成本,讓每個人都能用的起ai,讓每個公司都可以實現自己的ai策略。「我們總結出『4+1』個先決條件:一是要有資料;二要有明確定義的業務目標;三是充足的計算資源;四是要有演算法能力,當然也可以由第三方來提供。最後是乙個plus,屬於沒有沒關係,但有了更好的,就是形成反饋閉環。譬如說你下了一局圍棋獲得的資料,能形成反饋進一步優化演算法」。

「ai過去是只能服務一家,現在可以服務幾百家,以後可以服務每一家」。商業化階段,戴文淵用最堅定的信仰告訴大家,ai是真的可以「for everyone」的。

「不過,後來我也想明白乙個事情。其實我們的大環境缺的並不是有理想有抱負的科學家,而是sponsor(發起人)。所以真正挑戰人類的其實是ibm,不是許峰雄;是google,不是deepmind團隊。就像,真正修成聖彼得大教堂的,是天主教會,而不是公尺開朗基羅。這也是為什麼,我覺得還是要做乙個公司,用商業的成功帶動科技的成功」。

這種用天衣無縫的邏輯,論證直覺準確性的思維模式,實在是戴文淵最具魅力的地方,更是值得不少創業者深思的。即使他說的是乙個故事,這難以讓人反駁的強大論證能力、縝密邏輯能力、快速執行能力,也讓你甘心把酒奉上。

在沒有當ceo的時候,戴文淵認為自己「並不關心別的同事在做什麼」,除非「他做的事和我的技術目標有關聯」。但現在,這種縱向思考的模式正在逐漸改變。

他開始把與國際前沿技術的對接,放心地交給楊強教授這個公司的精神領袖;把人工智慧在工業應用上的優化與研究,交給人工智慧行業大牛陳雨強;把產品化交給另一位聯合創始人胡時偉。

他依舊追求技術細節,但是更多時間會放在把控公司大方向上;去把所有技術的成果,去和產品、商業市場做對接,做技術和市場商務之間的橋梁;同時,他開始去管理那麼多門檻不同、優勢不一,甚至在除了技術之外的其他很多方面比他強的人。

「技術只有0和1的區別,沒有0.1。但現在我要把自己變成乙個沒有0和1的人,才能把整個團隊聯接好。」戴文淵回憶起當年以隊長之職準備acm競賽時,對每個隊友的選擇都用最高的標準,容不得一顆沙子。而到了工業界,這種管理的模式行不通了。

做技術出身的人,常常會追求安逸,覺得乙個有網路的世界就夠了,覺得自己可以寫一輩子的**;而現在面對市場,卻發現市場是一直在變的,是最沒有穩定和「一招鮮」的。

戴文淵覺得自己永遠都沒有安全感,卻在不停的改變中發現,市場怎麼變,自己都不會死。這種永遠不在舒適區的狀態,反而給了自己莫大的安全感。真的不知道有多少創業者,會對此有共鳴。

直至目前,非bat的公司,即使是非常不錯的企業,都仍然很難找到靠譜的人完成ai團隊的自建,成本、人才都是門檻,技術團隊的人太貴了。「絕大多數企業都希望有這一條路,但這一條路在目前是走不通的。一定得是平台,得是降門檻,才能讓更多人參與,讓十來萬個人來一起玩,才能遍地開花。」戴文淵說。在這一點上,他兩次用「要相信」來強調自己的立場。

的確,我們或許不會記得pc是誰發明的,但我們會記住pc是賈伯斯帶給世人的。在智慧型時代的浪潮之巔,也許我們不會記得誰發明了深度學習,但我們每個人都記住了alphago。戴文淵,這個把人工智慧的火種燎原到各行各業的人。

20年後,新時代再見。

mysql第四正規化 資料庫的四個正規化之間的區別

資料庫的設計正規化是資料庫設計所需要滿足的規範,滿足這些規範的資料庫是簡潔的 結構明晰的,同時,不會發生插入 insert 刪除 delete 和更新 update 操作異常。反之則是亂七八糟,不僅給資料庫的程式設計人員製造麻煩,而且面目可憎,可能儲存了大量不需要的冗餘資訊。正規化說明 1.1 第一...

第四正規化戴文淵 降低門檻是解決AI瓶頸的最佳路線

8月22日,由中國發展研究 會 紅杉資本中國 共同主辦的 投資人力資本,擁程式設計客棧抱人工智慧 中國未來就業的挑戰與應對 報告發布暨課題研討會在京召開。人力資源和社會保障部副部長張義珍 發展研究中心副主任隆國強 中國發展研究基程式設計客棧金會副理事長兼秘書長盧邁 紅杉資本全球執行合夥人沈南鵬等政企...

學習python的第四天之運算子

a 10,b 20 運算子 描述例項 加 兩個物件相加a b輸出結果 30 減 得到負數或是乙個數減去另乙個數 a b 輸出結果 10 乘 兩個數相乘或是返回乙個被重複若干次的字串 a b 輸出結果 200 除 b a輸出結果 2 取整除 向下取整,9 2 輸出結果4 9.0 輸出結果 4.0 取餘...