前雅虎CTO Hadoop擴充套件過程中的7個危險訊號

2021-09-23 05:04:50 字數 2341 閱讀 9721

zdnet至頂網軟體頻道訊息:本文作者raymie stata是hadoop即服務公司altiscale的創始人兼ceo,也是雅虎前任cto,協助雅虎完成開源策略,並參與apache hadoop專案的發起。hadoop的擴充套件和運維是非常複雜的過程,在其具體的實施過程中隱藏著潛在的危機,raymie根據經驗羅列了7項危機訊號和相應的解決方案,幫助使用者提前避免災難的發生。

以下為譯文:

hadoop擴充套件是乙個非常複雜的過程,這裡羅列了7種常見問題和解決方案。

所有hadoop實施都存在著潛在的危機,包括一些非常棘手的hadoop執行問題。這類問題出現在投入生產環境前會導致hadoop被棄用,但是如果發生在投入生產環境後,則意味著一場「成功的災難」(其實更有可能是一場純粹的災難)。

hadoop的擴充套件和實施是非常複雜的。但是如果你能確切的認識到問題根源所在,還是可以避免「災難」的發生,以下是根據經驗總結出的一些危機訊號。

危機訊號1:無法投入生產環境

從概念驗證到生產環境使用是大資料工作流程的重要一步。hadoop擴充套件工作充滿了挑戰,較大的工作量往往不能被及時完成,測試環境不能完全覆蓋真實執行環境,例如資料測試中常見的一種問題是:概念驗證經常使用不切實際的小型或單一的資料集。

在投入生產環境之前,需要進行規模及壓力測試,通過這類測試的應用程式具備可擴充套件性及容錯能力,也可協助開發自身容量規劃模型。

危機訊號2:開始延期

第乙個應用程式投入生產環境標誌著你能夠輕鬆實現sla,但隨著hadoop集群數量增加,其執行時間變得不可預知,首次延期問題很容易被忽略,而隨著時間的推移,這種情況變得越來越糟,最終導致危機出現。

千萬不要等到危機爆發後再採取行動。在容量遭到挑戰之前,可適當的擴充套件容量或優化程式。調整預期容量模型,尤其注意要在最糟糕的效能環境下進行容量檢測,使其具備更加貼近現實的效能。

危機訊號3:開始告訴客戶不可能儲存所有資料

危機爆發的另一徵兆是減少資料保留需求。起初你希望為每年的資料分析保留13個月的資料,但由於空間限制,你開始縮減保留資料的時間,這在某種程度上等價於丟失了hadoop大資料分析能力的優勢。

縮減資料保留時間並不能解決問題,要避免這種問題必須要及早行動,重新審視容量模型,尋找**失敗原因,然後調整模型以便更好的追蹤問題根源所在。

危機訊號4:資料科學家們失去地位

過度使用hadoop集群會扼殺創新,會導致資料科學家沒有足夠的資源去執行大型作業,沒有足夠的空間為科學家們儲存大量運算結果。

容量規劃經常容易被忽視,資料科學家的作用也經常被忽視。被忽視加上生產環境負載規劃不足,意味著資料科學家經常被邊緣化。請確定你的需求裡包括對資料科學家的需求,並能在容量問題出現早期發揮作用。

危機訊號5:資料科學家通過stack overflow解決問題

在hadoop實施初期,運維團隊和資料科學家協同工作。隨著hadoop實施的成功,運維團隊的維護壓力隨之增加,科學家們必須自己解決hadoop的問題,通常會通過stock overflow尋找處理方法。

隨著hadoop擴充套件及關鍵任務的增加,維護的工作量開始增加,如果想要保證資料專家們集中在資料研究上,則需要重新調整運維團隊的大小。

危機訊號6:伺服器溫度公升高

分配伺服器電力**時,我們常常假設它們不會滿負荷執行,但是大型的hadoop作業很可能讓伺服器滿載數個小時,嚴重威脅到你的電網(冷卻方面也有類似的問題)。所以請確保你的hadoop集群可長時間在全功率環境下執行。

危機訊號7:開支失控

在基於iaas部署的hadoop環境中,排名第一的「成功災難」是開支失控。你會突然發現賬單費用是上個月的三倍,嚴重超出預算。

容量規劃是基於iaas的hadoop實施中相當重要的一步,不僅僅是為了管理容量也為了管理成本。但好的容量規劃只是乙個開始,如果你想要擴充套件基於iaas的hadoop實施,最好要像netflix那樣大力投資系統來追蹤並優化成本。

平緩hadoop擴充套件

hadoop計畫通常低估了保持hadoop集群穩定執行所需的工作量,這種誤判是可以理解的。傳統企業應用程式的初始優化實施成本比後續的維護與支援高出許多個數量級,人們通常誤認為hadoop遵循同樣的模式,實際上hadoop的維護非常困難,需要大量的運維工作。

優質的容量規劃是必不可少的;擁有良好容量模型的同時,還需要及時的更新以避免其偏離實際應用場景;不要讓創新成為後期問題,給予資料科學家足夠的支援;擴容不是解決問題的唯一辦法,管理使用情況也同樣重要;讓使用者(及業務所有者)做足夠的作業優化,一點點的優化都可以降低現有成本。

原文發布時間為:2023年09月05日

fastadmin 擴充套件資料前顯示搜尋時間

第一步 控制器檔案在擴充套件資料陣列中追加 searchtime欄位 begintime date y m d h i s mktime 0,0,0,date m date d date y endtime date y m d h i s mktime 0,0,0,date m date d 1,...

PHP安裝imagick擴充套件踩過的坑

環境背景 wamp php7.1.9 apache2.4.27 最近需要使用到圖形新增水印等操作,於是找到了intervention image這個元件。大神的輪子拿來用,還真是方便!嘖嘖!出於好奇,發現配置檔案image.php中,除了gd庫外,還可以使用imagick。哎,這個東東平時不太留意啊...

火爆!雅虎前員工給新CEO的10條建議 轉

google的第一位女工程師marissa mayer出任雅虎的新任ceo成為技術圈昨天最大的新聞,風頭甚至蓋過了office新版的發布 emc vmware的大整合以及ceo人事變動。有 戲稱,她履新第一天對雅虎的影響,已經超過了多位前任。而剛剛從雅虎辭職不久的sriram krishnan的建議...