第一章為什麼我們對機器學習感興趣？（六）

六、所有這些資料：資料**

所有電腦化機器和服務所產生的資料曾經都是數位化技術的副產品，計算機科學家已經對資料庫進行了大量研究以有效的儲存和處理海量資料。因為我們不得不儲存資料。過去二十年的某個時候，這些資料變成了一種資源，現在，更多的資料是一件幸事。

例如，想想一家連鎖超市，每天通過全國各地的實體店或是網上虛擬商店，向數以百萬計的顧客銷售成千上萬的商品。數位化的銷售終端記錄了每筆交易的細節：資料，客戶id（通過一些忠誠度計畫），購買的商品和**，花費的總金額等等。商店聯網之後，所有商店的終端資料都可以即時收集到**資料庫中。這樣每天可以積累大量（並且非常新的）資料。

特別是過去二十年左右，人們開始越來越多的思考如何使用這些資料。關注如何使用資料的話，計算機應用的整個方向就顛倒過來了。以前是程式處理資料、產生資料—資料是被動的。而考慮如何使用資料時，資料就開始驅動操作，下一步該做什麼，已經不是由程式設計師而是由資料本身來定義了。

不過這項任務並不是顯而易見的。我們並不十分確切的了解，哪些人可能會購買這種口味的冰淇淋或是這個作者的下一本書，會看這部新電影，會來這座城市旅遊。顧客的行為會隨時間發生變化，也會取決於其所處的地理位置。

但是也並不是沒有希望，因為我們發現顧客的行為並不是完全隨機的。人們並不是隨機去超市購物。他們購買啤酒時也會買薯條；夏天他們購買冰淇淋，冬天購買新增到gluhwein(德國聖誕節傳統的飲料，是一種混合紅酒，即在紅酒中加入丁香、肉桂等香料和糖)中的香料。客戶行為存在一定的模式，這就是資料發揮作用的地方。

雖然我們不了解客戶行為模式，但我們希望可以從收集來的資料中發現它。如果我們可以從過去的資料中發現這些行為模式，那麼在未來，至少不遠的將來，客戶的行為模式不會有太大的變化。我們可以預期這些行為模式將繼續保持下去，並且可以基於這些模式進行一些**。

我們可能無法完全識別這個過程，但是我們可以構建乙個良好、有用的近似值。這種近似值也許無法解釋所有的資料，但仍可能解釋部分資料。我們認為儘管不太可能識別完整的過程，但仍然可以檢測到一些模式。我們可以使用這些模式進行**，這些模式也可能幫助我們理解這個過程。

這種建立近似值的過程被稱作資料探勘。打個比方，大量的泥土和原材料從礦山中挖掘出來，經過處理後，會產生少量非常珍貴的材料。同樣在資料探勘中，通過處理大量資料，構建乙個有使用價值的簡單模型，例如具有高度的**準確性。

資料探勘也是機器學習的一種。我們不知道（客戶行為的）規則，所以無法編寫程式，但是機器-也就是計算機-通過從（客戶交易）資料中提取客戶的行為規則來進行學習。

擁有大量資料而不知資料中的規則，這樣的情況隨處可見。企業中使用計算機和數字技術就意味著各個領域都有大量的資料生成。在日常社交生活中，我們也使用電腦或智慧型機器，所以也會生成大量資料。

學習模型用於模式識別，例如用於識別攝像機捕獲的影象或識別麥克風捕獲的語音。如今，從識別人的行為（使用智慧型手機）到汽車駕駛輔助系統，不同型別的應用場景使用不同的感應器。

科學是資料的另乙個**。隨著我們研發更好的感測器，我們會檢測更多-就是在天文學、生物學、物理學和其他方面獲得更多的資料，我們使用學習演算法來理解越發龐大的資料。網際網路本身就是乙個巨大的資料儲存庫，我們需要智慧型演算法幫助我們尋找想要的東西。

智慧型機器的數量增多，對我們的日常生活幫助很大。

第一章為什麼我們對機器學習感興趣？（六）

第一章為什麼我們對機器學習感興趣？（八）

第一章為什麼我們對機器學習感興趣？（四）

第一章為什麼我們對機器學習感興趣？（二）

第一章 為什麼我們對機器學習感興趣？（六）

第一章 為什麼我們對機器學習感興趣？（八）

第一章 為什麼我們對機器學習感興趣？（四）

第一章 為什麼我們對機器學習感興趣？（二）

相關推薦

第一章為什麼我們對機器學習感興趣？（六）

第一章為什麼我們對機器學習感興趣？（八）

第一章為什麼我們對機器學習感興趣？（四）

第一章為什麼我們對機器學習感興趣？（二）