躺在庫里的時空大資料,我該拿你怎麼辦? 二

2021-08-20 21:53:14 字數 1015 閱讀 3387

面對著資料的體量越來越大、種類越來越多、格式越來越多樣化、產生的速度也越來越快、以及因為協助共享從其他渠道獲取的資料**也越來越多等問題的發生,導致了資料在體量上相比過去有了指數級的增長,而且還在不斷的增長。體量大了之後,如何儲存、如何管理、如何保障資料不丟失,就成了我們要面臨的第一重要課題。面對這個課題,資訊科技支援部門需要迎接這個挑戰,如何解決?原來使用的方法工具還能幫助到我們嗎?這始終困擾著我。

在思考解決這個問題之前,有必要先回顧下之前是如何管理這些資料的。到目前為止,我們很多的資料是儲存在關係型資料庫中,以表的來儲存,資料越來越多,表的記錄也越來越多,這個表也越來越臃腫,作為資料庫管理員就需要不斷的優化再優化。對於有經驗的資料庫管理員而言,可能會把訪問頻次不高的資料匯出放在冷庫中或者是直接放在檔案中,就像被打入冷庫的妃子,不知道什麼時候才會得到皇上傳召。但很多的小單位面臨的情況是,大部分的資料還是放在原庫中,這些資料不管用還是不用,都先放在資料庫裡再說。而這時候資料庫管理員就頭疼了,因為他經常會收到業務部門的埋怨:資料查詢怎麼變慢了?原來很快的啊?或許,這個時候有經驗的資料庫管理員可能會把關注點放在關係型資料庫的優化和擴充套件上,但是也會遇到兩個很現實的問題:1.優化擴充套件的成本多大?能不能花較少的錢/精力來解決這個問題;2.隨著資料的指數級增長,未來幾年還得在關係型資料庫上一再的優化擴充套件嗎?關係型資料庫會不會有瓶頸?其實,問題終歸就一句話:還是希望用更少的成本/精力來來解決當前的問題。

從成本的角度考慮,如果單位不差錢,那麼選擇像oracle、sql server這樣的成熟商用資料庫應該是首要的解決方案,很簡單,資料庫領域發展這麼多年已經很成熟,有問題找廠商。但是不差錢的單位還是比較少的,所以這時候可能大家會把目光放在開源社群。慶幸的是,在開源社群,有一些非常優秀的大資料儲存和管理方案,包括名聲大噪的hdfs(分布式檔案系統)。hdfs免費、穩定、可靠、有大批的開發者在維護,是大名鼎鼎的apache的一級專案,聽著都誘人,不是嗎?那是不是就只選hdfs來管理所有的資料?這種方案可以滿足現有所有業務系統的需要嗎?原來的資料如何遷移到hdfs?原來的業務系統的sql如何在hdfs上執行?資料的查詢統計分析效率如何,能夠達到目前業務系統的效能要求嗎?

mysql修改已存在庫的編碼

有時我們在mysql下建立庫,如果僅僅修改了mysql server和client的編碼格式,只是在建立新庫的時候編碼格式才會對應改變,原來已建立的庫的編碼格式不會進行改變,針對這種情況,我門需要修改已經建立的庫以及庫下對應表的編碼格式。本部落格中以db test作為庫,tb test1,tb te...

我們生活的時空

想要了解時空,我們首先應該了解下面幾個概念,時間 是抽象概念,表達事物的生滅排列。其內涵是無盡永前,其外延是一切事件過程長短和發生順序的度量。無盡 指時間沒有起始和終結,永前 指時間的增量總是正數。空間 是抽象概念,表達事物的生滅範圍。其內涵是無界永在,其外延是一切物件佔位大少和相對位置的度量。無界...

瓜瓜的時空旅行

題目描述 西瓜們生活在編號 1 n 的 n個平行時空中,2n 2 臺時光機將這些平行時空聯絡在一起。一台時光機有 3個整數引數 u,v,t 表示從時空 u 可以花費 t 的時間穿梭到時空 v。為了確保時空之間可以相互穿梭,同時方便作為現世的 1號時空的通行,西瓜們將這些時光機進行分工 前 n 1 臺...