漢日詞典結構的研究(終) 綜合效率分析

2021-04-16 07:17:10 字數 959 閱讀 3012

詞典的綜合效率要從時間和空間兩方面進行評估。

為加快詞典的查詢速度,通常索引結構都是直接讀到記憶體中進行處理的,這就要求索引檔案要盡可能的小,節省記憶體空間。

以目前最常用的以詞條為關鍵字的一級索引結構(暫稱1號索引)為例與本文介紹的索引結構(暫稱2號索引)進行比較:

我們假設日漢詞典詞條關鍵字最多字數為w,詞條總數為n,每個日文字為2個位元組,乙個長整形數為4個位元組,則:

1號索引所佔記憶體空間為:(w×2+4+1)×n; (其中1為分隔符占用位元組數)

2號索引所佔記憶體空間為:4×n;

若n=70000, w=15, 則1號索引占用的記憶體空間為2號索引的8.75倍,採用雙索引結構後1號索引占用的記憶體空間將為2號索引的17.5倍。

詞典的查詢速度主要取決於系統所採用的查詢演算法的複雜度以及訪問詞典檔案的時間。兩種索引均採用定長儲存結構,其查詢演算法簡單、快速。由於2號索引的關鍵字存在詞典檔案中,它訪問詞典的次數要多於1號索引,幸好目前微機技術發展迅速,詞典檔案的訪問時間已逐漸可以忽略。

可見,從綜合效率的角度分析,2號索引結構較1號索引結構要優越許多。

前面提到的「以領頭字為關鍵字的一級索引結構」,由於日文假名數量有限,採用該種索引結構將有效地減少索引所占用的記憶體空間,但也由此使以同一假名為領頭字的詞條數量大大增加,順序查詢勢必急劇減緩詞彙的查詢速度,從綜合效率的角度分析,該種索引結構不適合日漢電子詞典。

索引結構的組織建立直接影響電子詞典的查詢效率,有效、合理地組織詞典,加快查詢過程,是電子詞典必須解決的問題。

詞典組織結構的關鍵始終是在時間和空間兩個概念上尋找平衡,既要節省時間,加快查詢速度,又要減少儲存空間的佔用量,尤其是針對日語這種極具特殊性的語言,其複雜度更進一籌。本文所採用的「隱關鍵字定長雙索引儲存機制」,其占用儲存空間小,查詢演算法簡單、快速,切合日文的特殊性,解決了其雙索引查詢的困難,達到了時間和空間的最佳組合狀態,特別適合pda等移動式裝置上的詞典工具的建立。我們希望這一索引結構對加快電子詞典的應用和普及能有所幫助.

對漢諾塔遞迴演算法的研究

漢諾塔問題的遞迴解法是乙個非常經典的演算法。一 遞迴描述 1 當disc 1時 將盤子從x柱直接移到z柱 完成。2 當disc 2時 首先將編號為1的盤子從x柱移到y柱 其次將編號為2的盤子從x柱移到z柱 最後將編號為1的盤子從y柱移到z柱 完成。3 由2推廣可知,當disc n時 首先將n 1個盤...

漢諾塔問題研究 分治法以及遞迴函式的設計技巧

相信學過 資料結構與演算法 這門課程的同學都有聽過漢諾塔問題,但是可能在大學的時候沒有鑽研過,或者在學的時候就沒有弄懂,導致沒有很好的理解漢諾塔的經典解法,下面讓我來給大家來分析一下。漢諾塔 又稱河內塔 問題是源於印度乙個古老傳說的益智玩具。大梵天創造世界的時候做了三個金剛石塔,在乙個塔上從下往上按...

資料結構 資料結構的起源和研究內容

1,本文論述資料結構的起源和資料結構研究內容 2,高手往往能夠看到初學者看不到的問題 3,為什麼有程式存在 1,程式是為了解決實際問題而存在的 2,從本質上講,程式是解決問題的步驟描述 有了這些步驟,計算機照做就可以了 4,理解實際問題 1,確認問題型別 1,如 數值計算,求最小值個數,排序等 2,...