《大資料之路 阿里巴巴大資料實踐》讀書筆記

2021-08-20 13:35:58 字數 1854 閱讀 4647

ps:這本書主講阿里的大資料體系架構方案,從底層到高層闡述,目前對我來說此書的難度較大,不是很懂,大部分為對原書的引用歸納,我會給出相應的大牛的關於此書的讀書筆記的傳送門供參考。以下為大牛關於本書的讀書筆記供參考:讀書筆記傳送門

整本書分為四篇幅,共分16個章節分別闡述阿里巴巴在大資料的挑戰下的各個方面的應對與方法。

第一篇資料技術篇,包括第2、2、4、5、6、7章。

第二篇模型篇,包括第8、9、10、11章。

第三篇資料管理篇,包括第12、13、14、15章。

第四篇資料應用篇,包括16章。

總述阿里巴巴在大資料時代,面臨的挑戰與機遇,系統的整體大資料系統架構,在資料**增長的時代,能不能有組織、有序、有結構地儲存,是阿里資料技術部門和產品部門需要解決的問題,另乙個很重要的問題是在如雙十一這種**活動購物活動時候,阿里的服務能不能穩定的提供,滿足越來越高的下單峰值,阿里大資料井噴式爆發,在資料服務和資料產品方面有著極大的挑戰。

還有一些控點事件和其他事件,除了之前提到的,ut還提供預設的採集方法,如自動捕獲應用崩潰,sdk提供日誌的聚合功能,利用頁面的生命週期來適當的聚合,以及本地聚合功能,識別頁面復用,配合棧的深度等進行更為複雜的操作。很多情況下h5和native互跳,資料丟失驗證,使用者路徑無法還原,多端之間資料隔離等問題,阿里通過對h5和native統一處理來解決。那麼就涉及到日誌的歸檔,通常native部署採集sdk方式,具體流程略過。涉及到另外乙個問題訪客數,使用者登陸時候用使用者id來唯一標示,為登陸的介面,pc端用cookie資訊作為裝置唯一資訊,aap端,阿里採用utdid來標識。

無線端日誌上傳,是先儲存在本地,後伺機上傳,上傳動作不單以時間間隔來決定,還要考慮日誌的大小以及合理性,對與重要的資料,此時可以適當地釋放其他日誌資源來優先處理。日誌早已不是初期的飢餓階段,反而面臨海量日誌淹沒的危險,故問題不再是採集技術本身,而是如何資料的規範化、機構化、組織化。阿里採用日誌分流和定製處理、採集與計算一體化設計這倆個方案。具體有關分布式,分治策略等,後乙個要求對日誌的歸類和彙總,,一體化要求採集和計算作為乙個系統考慮,阿里採用使用者直觀感知的spm規範。

另外乙個重要的問題是大促保障,如「雙十一「活動,需要保證每個階段都沒有問題,端埋點採集,伺服器處理,傳輸,解析,分析,應用,需要考慮伺服器能力,實時處理等各方面,對非重要資料進行適當限流,延遲上報,部分取樣,後錯峰恢復。

另外從業務上改造,各鏈路做優化。

資料儲存時候面對大量非結構化資料,將其直接以文字檔案形式存放在檔案系統中,這些資料也有著很大的作用,目前阿里的大資料處理系統maxcompute資料儲存已經達到了pb級別!對於離線型別資料倉儲應用,需將不同資料來源資料批量同步至資料倉儲。資料只有被整合和計算才能使用,挖掘潛在資訊,資料的最大化價值化,阿里資料計算層主要包括倆大體系:資料儲存及計算雲平台(離線計算平台maxcompute和streamcompute:阿里自主研發的流式大資料平台)和資料整合及管理體系(內部稱之為onedata),構建統一規範可共享的全域資料體系,資料倉儲的資料加工鏈路包括:運算元據層(ods)、明細層(dwd)、彙總層(ads)。

資料計算和整合好後,需要供給產品和應用進行消費,阿里構建了自己的資料服務層,通過介面服務話方式對外提供資料服務。資料來源架構在各種資料庫之上,如hbase,後面移至阿里雲資料庫(apsaradb for rds  簡稱rds)和**儲存(table store),統一資料平台(oneservice ),提供資料查詢、複雜資料查詢、實時資料推送等服務。

在資料應用層,需要將資料供給給使用者,阿里表現在各個方面:搜尋、廣告、金融、文娛、物流、保險等,阿里平台產品主要有實時資料監控、自助式資料**或產品構建的資料小站、巨集觀決策分析支撐平台、物件分析工具、行業資料分析門、流量分析平台等。

總結:在資料為王的時代,有資料是資本,能分析資料是優勢,最大消費資料是才是目的所在,有了這些資料才能成為新能源。

《大資料之路 阿里巴巴大資料實踐》筆記

阿里巴巴大資料系統體系主要分為,資料採集 資料計算 資料服務和資料應用四大層次。瀏覽器的頁面日誌採集 h5裝置標識 日誌傳輸資料同步基礎 不過濾刪除流水,下游邏輯刪除 過濾最後一條刪除流水,比如存在手工批量刪除或者備份刪除,則資料還是有效的不應當置為無效 過濾刪除流水和之前的流水 阿里資料倉儲的同步...

大資料之路 阿里巴巴大資料實踐 資料同步要點

使用者建立資料同步任務,並提交該同步任務。根據系統提前獲知及設定的資料,估算該同步任務需要同步的資料量 平均同步速度 首輪執行期望的執行緒數 需要同步的匯流排程數。根據需要同步的匯流排程數將待同步的資料拆分成相 等數量的資料塊,乙個執行緒處理乙個資料塊,並將該任務對應的所有執行緒提交至同步控制器。同...

阿里巴巴大資料之路

資料治理 對這些資料進行有序 有結構地分類組織和儲存,目前企業資料現狀 集團資料儲存達到eb 1eb 1024pb 2 60位元組 級別,部分單張表每天的資料記錄數高達幾千億條 資料工程師工作 資料工程師每天要面對百萬級規模的離線資料處理工作。資料模型 資料研發 資料質量和運維保障工作。大資料系統體...