讀 資料即未來 大資料的王者之道

2021-09-01 15:55:10 字數 1664 閱讀 2740

道德經闡述:道生一,一生二,二生三,三生萬物。

2023年美國科學家蓋爾曼提出中子,質子這一類強子是由三個更基本的單元夸克構成的,驗證了道德經中《三生萬物》的物理存在原理。

資料科學是一門日新月異的科學,資料庫常變,軟體常變,硬體常變 ……不變的只有洞察本質的思維方式和對問題解決之道的不懈追求。

首先,隨著社會發展,人類的社會實踐、生產實踐和科學實驗產生了大量的資料。

同時,技術的進步使得資料的記錄和整理變得越來越便利。

資料的海量增加使得人們對於資料採集、清洗、過濾、分析、建模和表達的需求越來越殷切。

人們的聚焦點從如何生產、收集和管理資料,轉向如何更好地建立模型和分析資料。

資料科學應運而生。

資料科學的核心在於資料內容之間的相互作用,給定專案的目標以及用於實現這些目標的資料分析方法。

關鍵在於了解內部發生的事情:資料怎麼了,我們得到了什麼樣的結果以及為什麼會這樣。

資料科學專案的三個階段組織

第一階段是準備,初期收集資訊,便於後續處理

第二階段是構建,利用在準備階段採集的資訊進行統計,採用合適的工具構建產品。

第三階段是收工,交付產品,獲得反饋,進行修改,支援產品和結束專案

第一章 討論的重點在於資料科學家的思考過程,以及我們身邊的資料科學。

作者希望將我們的注意力聚焦在最重要的事情上。

資料科學家需要擁有許多硬技能,其中包括軟體研發和統計學的知識。

但是,保持適當的角度並意識到許多動態因素是重要的軟技能。

有時候,重點是資料質量,有時候,重點則是資料規模,處理速度,演算法引數,結果解讀或問題的許多其他方面。

小故事:乙個剛起步的初創公司的創始人,想從旅行相關的電子郵件中提取姓名、地點、日期和其他關鍵資訊,以便將這些資料用於移動應用,從而跟蹤使用者的旅行計畫。

這個問題具有一定的共性:電子郵件格式和大小不同,來自航空公司、酒店、預定**的電子郵件的格式不同,這些格式在一段時間之後可能還會變化,想要提取出有用的資訊具有很大的挑戰。

軟體研發人員可能會認為自然語言處理工具可以解決這個問題。但事實上,當付諸行動去實現的時候會遇到很多意想不到的困難。

而作者在問題提出之初就意識到,這個問題可能會很複雜,想要解決這個問題有兩種方案,一種是人工處理,一種是指令碼處理,或者在兩者之間折衷處理。作者認為折衷處理的方案似乎是最好的。即,針對常見的格式研發一些簡單的模板,通過指令碼提取有用資訊,對於一些特殊的識別不了的檔案則採取人工處理的方式。

作者從這個故事中學習到教訓:當處理設計資料的問題時,意識是非常有機制的。在處理問題時,意識到處理的過程中會遇到的問題,將會使我們的處理更加順暢。

軟體研發人員需要處理的問題時具有明確邏輯的,若a,即b的問題。

而資料科學家處理的問題則是類似若a,則可能b的問題。導致這種可能的原因正是資料科學家需要回答的問題。

處理不確定性是資料科學家和軟體研發人員的本質區別。

知識第一 ——採取行動前,理解問題、資料、方法和目標,並在頭腦中記住它們。

技術第二 ——軟體只是工具,既可為你賦能也可以約束你。

觀點最後 ——意見、直覺不是任何專案的重點,一切的觀點都需要驗證。

編寫程式和專案的說明文件,管理好文件的版本。

**組織符合約定的規範。

了解業務。

緊靠資料。(採用的方法不要過於繁雜。)

tips:用mle來確定最可能引發不可預知結果的引數值。

大資料架構的未來

本文講述了大資料的相關問題,以及 大資料架構 得名的由來。大資料的問題 或許所有讀者都明白這一點 資料正在飛速增長。若是能夠有效利用的話,我們能從這些資料中找到非常有價值的見解 傳統技術有很多都是在40年前設計的,比如rdbmss,不足以創造 大資料 炒作所宣稱的商業價值。在大資料技術的使用上,常見...

大資料未來發展

許多對大資料有需求的公司並不一定具備強大的研發團隊,在大資料處理過程中往往遭遇眾多挑戰。那麼,在面臨這些挑戰時,開發者最迫切需要的是什麼?為了解決公司中的實際問題,39.28 的人希望擁有更犀利和通用的計算框架 37.88 的人希望能擁有更好的資料探勘演算法 21.59 的人則對保障性更高的運維有了...

記憶體讀資料和磁碟讀資料的區別

當程式要讀取的資料時傳入記憶體位址 行位址 列位址 如果資料不在主存中時,會觸發乙個缺頁異常,此時系統會向磁碟發出讀盤訊號,通過柱面號,磁頭號,扇區號定位磁碟位置,找到資料的起始位置並向後連續讀取一頁或幾頁載入記憶體中。於儲存介質的特性,磁碟本身訪問就比主存慢很多,再加上機械運動耗費,磁碟的訪問速度...