京東雲李道兵 物件儲存的新挑戰

2021-09-13 20:47:54 字數 2719 閱讀 2119

2023年3月21-22日,由中國資訊通訊研究院主辦、中國通訊標準化協會支援的」oscar雲計算開源產業大會」在國家會議中心舉行。

隨著雲計算技術的日益發展,並開始進入「深水區」,開源技術與雲計算融合的程度進一步加深,並開始成為產業發展的重要支撐。」oscar雲計算開源產業大會」將邀請行業內多位大咖與權重人物共同**、交流雲計算開源技術、研發、治理、產業化方面的經驗,探索開源與雲計算的創新發展新路徑。

京東雲高階總監李道兵出席了會議並發表主題演講,他的演講主題是《物件儲存的新挑戰》。

以下為演講實錄:

首先,我們看一下過去幾年物件儲存的資料量趨勢。從2023年起,物件儲存的總量已經超過結構化資料,在接下來幾年,結構化資料的量沒有大的增長,大概是很平穩的緩慢增長的趨勢,而物件儲存則是乙個爆發性增長趨勢。爆發性增長究竟來自於哪?大量增長來自於ugc的內容,而這些ugc內容為什麼大規模爆發式增長呢?有以下幾點可以說明。

第乙個點,全球性頻寬容量增長和頻寬**下降。中國在五年之前移動還是2g時代,聯通、電信3g時代,現在4g時代,以前每月流量包200兆水平,現在幾乎每個人都是幾**平,家庭頻寬從2兆、5兆到百兆,這是中國的情況。而世界的情況,比如印度和非洲,大量移動裝置的引入,這些都造成了大量頻寬的大幅度增長。頻寬大幅增長帶來的就是ugc內容的增長。

第三個點,我們看到大量的企業,富**企業,已經從中成功探索贏利模式,比如美圖已經成功在香港上海,陌陌在美國上市,快手差不多現在成為中國流量最大企業之一,儘管沒有上市,整個估值是非常高的。這些都可以看到,在富**驅動下大規模的增長。

所以說,在物件儲存方面,富**的增量未來仍然非常樂觀。

我們可以看到,現在儲存半結構化資料儲存方式還非常原始,而這些原始方式可能不會滿足在未來的一些需求。比如說,現在大量資料還放在hdfs、elastic search,tsdb或者influxdb等時序資料庫,容量非常有限,老資料必須搬遷到儲存,查詢老資料的時候又不得不搬回來,這個問題也很難解決。那麼能否考慮,我們能不能把大量計算往儲存上引呢,對於儲存來講它需要做的是什麼?回到剛才的問題,我們大部分情況下要做的計算其實不僅僅是mapreduce,更精確的是filtermapreduce,從海量資料裡面先進行過濾,然後在做mapreduce計算。那麼就可以簡單的做些優化,這個優化就是指我們用物件儲存作為半結構化資料的儲存池,然後我們在儲存裡面完成filter操作,把filter結果拿到計算引擎去做。這樣的話可以解決剛才很多問題,你的計算引擎支撐不了這麼大量的資料,這個時候通過filter儲存承擔大量資料的操作。從這個角度上講,對物件儲存有一些挑戰,但挑戰並不大,之前我們只提供簡單的put, get., delete介面,現在我們只需要在原始介面上加入filter相關介面就可以了。aws s3已經提供了s3 select這類的服務,能夠幫助我們實現我們想要的功能。

ssd未來對hdd的衝擊,現在物件儲存大部分是基於傳統的磁碟,在2u空間放下12塊硬碟,一塊盤8tb或者10tb,這個圖是ssd的**變化曲線圖,下面的紅線是hdd傳統硬碟**變化曲線,藍色線和紫色線都是兩種ssd**變化趨勢。從這裡可以看到,在不遠的未來,我們可以看到ssd**可能低於hdd,當然,現在說這個話時機有點不太合適,因為最近ssd和記憶體正在拼命漲價,大家可能不以為然,但未來三到五年這個東西可能變成現實。另外乙個報告**企業市場ssd空間占有率,比如2023年左右,大概能夠佔到15%. ssd究竟能夠給我們帶來什麼好處呢?第乙個,單位機架容量。傳統hdd時代,平均每u大概能放90tb,ssd時代每u可以簡單放下1000tb,我的儲存容量單位提公升10倍,我在乙個機櫃空間,或者乙個機房裡儲存容量直接上公升乙個數量級。第二個是功耗。傳統hdd功耗每tb需要1.5瓦的水平,sdd能夠降到0.2瓦的水平,從環保和節省機架費用的角度,我們能夠降乙個數量級。第三個是iops.不說了,折合單位容量差了將近30倍左右,傳輸速率是5左右,唯一差別就是**。如果**不再成為問題的情況下,ssd能夠給我們帶來更加海量的儲存,而且只需要更小的體積。

在新的ssd模型上面會不會有新的問題呢?這是乙個1u 1pb的ssd儲存伺服器。這裡面帶來乙個大的問題。每個ssd能提供500mb/s的吞吐,30個ssd提供15gb/s的吞吐,網絡卡的瓶頸可以用filter來解決,我們從磁碟讀取了15gb/s 的資料,但不用向網絡卡吐那麼多資料,只把需要的資料吐出去。但15gb/s遠超過cpu的處理能力,即使是頂尖的e5雙路cpu也不能滿足需求,更何況這樣的cpu實在是太貴了。有沒有可能我們把計算能力進一步下沉,下沉到ssd裡面去呢,ssd為了實現自己的排程演算法,自帶了計算晶元,我們能不能在晶元裡做一些簡單的處理,比如過濾、彙總等,這樣filter過程完全不用cpu參與,直接在ssd裡就做完了,在新的ssd架構裡面這個事情是非常有需求的一件事情。而且,我們也能得到額外的好處,比如半結構化資料可壓縮性很強,這套框架也可以用於資料壓縮,可以進一步在不影響使用的情況提高儲存密度,同時不增加cpu的負擔。從這個角度上講,可以說是兩端計算,對半結構化資料,我們拼命把計算往兩邊遷移,其中一側我們往下推,推到伺服器,再推到磁碟,推到ssd裡面自己完成計算。另外一端,我們把彙總出來的資料往另外一側推,類似spark這類的集中式計算引擎,這種對半結構化資料filter模型就比較方便,能夠達到未來半結構化資料計算的需求。對於物件儲存你需要做的改變也不太多,需要一套新的支援查詢的api,一套查詢語法規範(類似於sql),還有就是對spark等程式進行改造來支援這個規範。

我覺得物件儲存在未來幾年的蓬勃發展肯定沒有問題,而且其中富**作用是主力,但是半結構化資料也會慢慢成長起來,慢慢逐步的可能會成為新的主流的資料儲存需求,通過兩端計算模型,能夠更好的利用半結構化資料和儲存的過程優勢,把半結構化資料的價值充分發揮出來。我想講的就是這些,謝謝大家!

從開發到上線 實戰持續交付 李道兵

在產品的開發過程中,對資料量要求較高的 進行架構設計時如何部署是個很複雜的問題,涉及到多個層面的不同要求,七牛首席架構師李道兵在部署工具和測試以及持續整合方面給出了自己的思考。在七牛的開發者實踐日中與大家分享 從開發到上線 實戰持續交付 李道兵首先從不同的層面來分析目前的 的架構的設計,從資料庫 緩...