資料,才是機器學習中唯一重要的東西

2021-09-30 23:06:22 字數 1730 閱讀 7533

機器學習領域目前的流行趨勢是免費提供軟體等產品。科技公司一直提倡建立開源社群,並且非常樂意將其部分**開源。然而,在過去的一年(2023年)中,機器學習領域的大佬們卻將自己完整的**庫貢獻出來了:谷歌tensorflow開源;facebook也將其經過優化的深度學習模組提供給了開源圖書館torch;然後,microsoft推出了免費的分布式機器學習工具包(dmtk);ibm也推出了開源systemml平台。 這些發展已經明確證實了觀察者們已經知道的資訊,即科技公司不會再將軟體和演算法當做私有化的寶貴財產。當今最有價值的資產是資料,而緊隨其後的是使用這些資料的天賦。

2023年是開源年

facebook:提供給torch的深度學習模組

ibm:systemml

ibm幾乎是人工智慧的代名詞,因為它擁有深藍計算機和沃森系統。2023年6月,ibm將其機器學習平台systemml提供給了快速發展的開源社群apache spark。ibm將繼續提供spark更多的資源,並將其作為更廣泛的ibm bluemix開放雲技術平台的一部分。

google:tensorflow

2023年11月,google推出了免費的tensorflow。tensorflow是google的第二代機器學習系統,意在取代distbelief。該系統將計算以狀態化資料流圖表的形式呈現,使得在硬體系統不同的多台機器之間執行網路變得更加容易。tensorflow是由google大腦研究組(其中有深度學習領域的傳奇人物geoffrey hinton)開發的,廣泛應用於google的多種產品之中,包括gmail郵箱和photos。其最受矚目的應用是google的人工智慧引擎rankbrain系統,該引擎系統處理著google大量的搜尋查詢。

微軟:分布式機器學習工具包(dmtk)

終於,在google推出tensorflow的3天後,微軟也將其分布式機器學習的框架和演算法進行了開源。dmtk使得機器學習任務很容易進行擴充套件。該工具包還包括lightlda(主題模型訓練的一種高效演算法)和分布式詞向量(distributed word embedding,一種自然語言處理工具)。

隨著資料價值的提高,軟體將會傾向於免費

「當行業的落伍者還在辯論自有伺服器與雲服務的優缺點,並且努力合併大量資料庫時,行業的科技領導者們已經在加緊向前推進。」

智財權正在交付給開源社群,並讓他們按照自己的想法來使用。當大多數公司剛開始推出大資料戰略時,google、facebook、微軟和ibm已經踐行了他們的戰略,建立了大資料和機器學習工具,並且已經開始免費提供。 大多數公司將專有軟體視為自身的競爭優勢,可為消費者提供相應的價值。當傳統硬體公司正在慢慢試圖轉變為軟體和服務公司時,他們賴以存在的基礎開始發生轉變。 電信運營商正在努力適應以軟體定義的、而不是由路由器和交換機定義的網路世界,製造商正在從提供工具和部件的角色向使用分析和**維護轉變。當他們到達軟體與服務有望帶來豐厚利潤的新黎明時,他們會發現這其實是乙個海市蜃樓。網路上的軟體幾乎沒有邊際成本;軟體的**將會傾向於零。真正有價值的東西是資料。

使用機器學習工具非常困難

「對於那些試圖為客戶建立平台的非軟體公司,他們的挑戰就是,開源其實並不是他們自身文化的一部分。」

客戶價值是隨著機器學習應用程式而建立的,這些應用程式來自於第三方開發者提供的新型創新服務。為了吸引開發者,開源是唯一的方法,而資料將會是唯一可持續的競爭優勢。 最近對於行業的建議是,從物質產品中抽身,轉而製造數字產品。然而,對網路數字產品進行收費比以往任何時候都要困難。對於機器學習,製造數字產品還遠遠不夠。公司需要放棄數字產品,這對於很多正在經歷數位化轉變的公司的管理層和董事會來說,是乙個難以下嚥的苦果。

如今,唯一重要的東西是資料。

ROS學習(一) 重要概念

ros ros是乙個用於開發機械人應用程式的 類似作業系統的機械人軟體平台。ros提供 開發機械人應用程式時所需的硬體抽象 子裝置控制,以及機械人工程中廣泛使用的傳 感 識別 繪圖 運動規劃等功能。此外ros還提供程序之間的訊息解析 功能包管理 庫和豐富的開發及除錯工具。主節點主節點 master ...

PMF 創業公司「唯一重要的東西」?

網際網路企業99 創業失敗,只是因為沒有找準它 聽說過 精益創業 lean startup 的人都知道最小化可行性產品 mvp,minimal viable product 的理念 即通過乙個最小化 卻可以滿足核心需求的產品來測試市場的反應。mvp背後的核心原則就是減少時間成本。但在網際網路行業,很...

找出陣列中唯一重複的數

題目 陣列a n 1至n 1這n 1個數存放在a n 中,其中某個數重複一次。寫乙個函式,找出被重複的數字。方法一 異或法。陣列a n 中的n個數異或結果與1至n 1異或的結果再做異或,得到的值即為所求。include include include include void xor finddup...