自己實現乙個簡單資料庫

2021-06-23 04:51:11 字數 2105 閱讀 1058

所有應用軟體之中,資料庫可能是最複雜的。

mysql的手冊有3000多頁,postgresql的手冊有2000多頁,oracle的手冊更是比它們相加還要厚。

但是,自己寫乙個最簡單的資料庫,做起來並不難。reddit上面有乙個帖子,只用了幾百個字,就把原理講清楚了。下面是我根據這個帖子整理的內容。

第一步,就是將所要儲存的資料,寫入文字檔案。這個文字檔案就是你的資料庫。

為了方便讀取,資料必須分成記錄,每一條記錄的長度規定為等長。比如,假定每條記錄的長度是800位元組,那麼第5條記錄的開始位置就在3200位元組。

大多數時候,我們不知道某一條記錄在第幾個位置,只知道主鍵(primary key)的值。這時為了讀取資料,可以一條條比對記錄。但是這樣做效率太低,實際應用中,資料庫往往採用b樹(b-tree)格式儲存資料。

要理解b樹,必須從二叉查詢樹(binary search tree)講起。

二叉查詢樹是一種查詢效率非常高的資料結構,它有三個特點。

(1)每個節點最多只有兩個子樹。

(2)左子樹都為小於父節點的值,右子樹都為大於父節點的值。

(3)在n個節點中找到目標值,一般只需要log(n)次比較。

二叉查詢樹的結構不適合資料庫,因為它的查詢效率與層數相關。越處在下層的資料,就需要越多次比較。極端情況下,n個資料需要n次比較才能找到目標值。對於資料庫來說,每進入一層,就要從硬碟讀取一次資料,這非常致命,因為硬碟的讀取時間遠遠大於資料處理時間,資料庫讀取硬碟的次數越少越好。

b樹是對二叉查詢樹的改進。它的設計思想是,將相關資料盡量集中在一起,以便一次讀取多個資料,減少硬碟操作次數。

b樹的特點也有三個。

(1)乙個節點可以容納多個值。比如上圖中,最多的乙個節點容納了4個值。

(2)除非資料已經填滿,否則不會增加新的層。也就是說,b樹追求"層"越少越好。

(3)子節點中的值,與父節點中的值,有嚴格的大小對應關係。一般來說,如果父節點有a個值,那麼就有a+1個子節點。比如上圖中,父節點有兩個值(7和16),就對應三個子節點,第乙個子節點都是小於7的值,最後乙個子節點都是大於16的值,中間的子節點就是7和16之間的值。

這種資料結構,非常有利於減少讀取硬碟的次數。假定乙個節點可以容納100個值,那麼3層的b樹可以容納100萬個資料,如果換成二叉查詢樹,則需要20層!假定作業系統一次讀取乙個節點,並且根節點保留在記憶體中,那麼b樹在100萬個資料中查詢目標值,只需要讀取兩次硬碟。

資料庫以b樹格式儲存,只解決了按照"主鍵"查詢資料的問題。如果想查詢其他字段,就需要建立索引(index)。

所謂索引,就是以某個欄位為關鍵字的b樹檔案。假定有一張"雇員表",包含了員工號(主鍵)和姓名兩個字段。可以對姓名建立索引檔案,該檔案以b樹格式對姓名進行儲存,每個姓名後面是其在資料庫中的位置(即第幾條記錄)。查詢姓名的時候,先從索引中找到對應第幾條記錄,然後再從**中讀取。

這種索引查詢方法,叫做"索引順序訪問方法"(indexed sequential access method),縮寫為isam。它已經有多種實現(比如c-isam庫和d-isam庫),只要使用這些**庫,就能自己寫乙個最簡單的資料庫。

部署了最基本的資料訪問(包括索引)以後,還可以實現一些高階功能。

(1)sql語言是資料庫通用操作語言,所以需要乙個sql解析器,將sql命令解析為對應的isam操作。

(2)資料庫連線(join)是指資料庫的兩張表通過"外來鍵",建立連線關係。你需要對這種操作進行優化。

(3)資料庫事務(transaction)是指批量進行一系列資料庫操作,只要有一步不成功,整個操作都不成功。所以需要有乙個"操作日誌",以便失敗時對操作進行回滾。

(4)備份機制:儲存資料庫的副本。

(5)遠端操作:使得使用者可以在不同的機器上,通過tcp/ip協議運算元據庫。

出處:

自己實現乙個最簡單的資料庫

所有應用軟體之中,資料庫可能是最複雜的。mysql的手冊有3000多頁,postgresql的手冊有2000多頁,oracle的手冊更是比它們相加還要厚。但是,自己寫乙個最簡單的資料庫,做起來並不難。reddit上面有乙個帖子,只用了幾百個字,就把原理講清楚了。下面是我根據這個帖子整理的內容。第一步...

實現乙個簡單的資料庫

所有應用軟體之中,資料庫可能是最複雜的。mysql的手冊有3000多頁,postgresql的手冊有2000多頁,oracle的手冊更是比它們相加還要厚。但是,自己寫乙個最簡單的資料庫,做起來並不難。reddit上面有乙個帖子,只用了幾百個字,就把原理講清楚了。下面是我根據這個帖子整理的內容。第一步...

java semphore實現 簡單資料庫連線池

首先我們先介紹一下什麼是訊號量 類似於我們去公共澡堂洗澡,需要先去前台付款拿到儲物櫃的鑰匙,如過沒有空閒的儲物櫃,我們就需要一直等待,直到有別人洗完澡,讓出儲物櫃,這裡的鑰匙就相當於訊號量 有限的數量 訊號量可以使共享變數可被指定數量的執行緒訪問。乙個計數器,乙個等待佇列,三個方法。在訊號量模型裡,...