躺在庫里的時空大資料，我該拿你怎麼辦？二

面對著資料的體量越來越大、種類越來越多、格式越來越多樣化、產生的速度也越來越快、以及因為協助共享從其他渠道獲取的資料**也越來越多等問題的發生，導致了資料在體量上相比過去有了指數級的增長，而且還在不斷的增長。體量大了之後，如何儲存、如何管理、如何保障資料不丟失，就成了我們要面臨的第一重要課題。面對這個課題，資訊科技支援部門需要迎接這個挑戰，如何解決？原來使用的方法工具還能幫助到我們嗎？這始終困擾著我。

在思考解決這個問題之前，有必要先回顧下之前是如何管理這些資料的。到目前為止，我們很多的資料是儲存在關係型資料庫中，以表的來儲存，資料越來越多，表的記錄也越來越多，這個表也越來越臃腫，作為資料庫管理員就需要不斷的優化再優化。對於有經驗的資料庫管理員而言，可能會把訪問頻次不高的資料匯出放在冷庫中或者是直接放在檔案中，就像被打入冷庫的妃子，不知道什麼時候才會得到皇上傳召。但很多的小單位面臨的情況是，大部分的資料還是放在原庫中，這些資料不管用還是不用，都先放在資料庫裡再說。而這時候資料庫管理員就頭疼了，因為他經常會收到業務部門的埋怨：資料查詢怎麼變慢了？原來很快的啊？或許，這個時候有經驗的資料庫管理員可能會把關注點放在關係型資料庫的優化和擴充套件上，但是也會遇到兩個很現實的問題：1.優化擴充套件的成本多大?能不能花較少的錢/精力來解決這個問題；2.隨著資料的指數級增長，未來幾年還得在關係型資料庫上一再的優化擴充套件嗎？關係型資料庫會不會有瓶頸？其實，問題終歸就一句話：還是希望用更少的成本/精力來來解決當前的問題。

從成本的角度考慮，如果單位不差錢，那麼選擇像oracle、sql server這樣的成熟商用資料庫應該是首要的解決方案，很簡單，資料庫領域發展這麼多年已經很成熟，有問題找廠商。但是不差錢的單位還是比較少的，所以這時候可能大家會把目光放在開源社群。慶幸的是，在開源社群，有一些非常優秀的大資料儲存和管理方案，包括名聲大噪的hdfs（分布式檔案系統）。hdfs免費、穩定、可靠、有大批的開發者在維護，是大名鼎鼎的apache的一級專案，聽著都誘人，不是嗎？那是不是就只選hdfs來管理所有的資料？這種方案可以滿足現有所有業務系統的需要嗎？原來的資料如何遷移到hdfs？原來的業務系統的sql如何在hdfs上執行？資料的查詢統計分析效率如何，能夠達到目前業務系統的效能要求嗎？

躺在庫里的時空大資料，我該拿你怎麼辦？二

mysql修改已存在庫的編碼

我們生活的時空

瓜瓜的時空旅行

躺在庫里的時空大資料，我該拿你怎麼辦？ 二

mysql修改已存在庫的編碼

我們生活的時空

瓜瓜的時空旅行

相關推薦

躺在庫里的時空大資料，我該拿你怎麼辦？二