《全唐詩》資料庫分享

2022-02-12 02:31:19 字數 625 閱讀 2189

之前由於**等相關原因,需要乙個詩詞文字對仗庫,苦於手頭沒有,網上也沒有找到較好的定義好的格式。因此,琢磨著自己想辦法做乙個出來。而做詞庫的資料來源很重要,選來選去,最後決定使用全唐詩作為資料庫。至於原因,首先是因為其資料量比較大,詩詞覆蓋面比較廣;其次,由於《全唐詩》中大都是唐宋時期的詩詞名篇,結構相對嚴謹,平仄相對,對仗清晰。更重要的是。。苦於國學水平所限,我不知道還有啥別的資料庫可用。

除此之外,我還找到了漢字讀音的乙個資料庫(漢字字型檔),資料中包含聲母、開合口、韻母、聲調、切語、字、中古拼音等資訊,絕對是對仗分析計算的好幫手啊,絕對可以作為評定、推斷標準之一。不過,請注意《全唐詩》收錄的創作的年代都是唐宋之前的,當時詩人們的創作作品時,使用的音韻可能是。。。。,請慎重選擇。此資料庫好像是從北大的乙個語言論壇中得來的,是愛好者編輯的,資料的準確性基本可以得到保障。 

另外,如果要從《全唐詩》詩詞資料庫中獲得對仗資訊,你可能想到需要做中文分詞,但是建議你不要。因為我也有過這想法,但是稍微分析觀察之後發現,其實完全沒有必要,因為中國的古詩詞極為精煉,字字珠璣,少有片語的形式出現,多是單字表意。如果你堅持試一試的話,可以嘗試使用:。 

附件說明:

1.資料集:

參考:2. svm:

3. 漢字型檔: 

4. 北大中文論壇: 

初學資料庫分享1

這是我的第一篇部落格,算是我的學習筆記,希望大家多提意見 1.1 瀑布模型 該模型分為六個階段,分別是 1 專案規劃 就是本專案的一些實現目標 預計實現的功能 開發背景以及系統需要解決的問題等等 2 系統分析 通過調研全面分析理解系統原型,利用需求文件敘述專案目標 功能 適用範圍 響應時間,以及資料...

資料庫遷移(分享十一)

公司最近資料遷移專案比較多,大部分都是上雲服務,目前基本上是映象上雲,p2v,v2v模式,但是我也漸漸了解到很多企業也打算資料庫上雲服務,由於各種不同原因,沒有辦法p2v v2v這種形式。需要我們就是進行應用遷移即資料庫遷移。下面幾節我就oracle mysql sqlserver資料庫遷移工具介紹...

分享關於資料庫優化經驗

我們在開發過程中,多多少少都會接觸稍微複雜一點的業務,那麼往往也關係到多表的查詢,而就在此時我們也頭疼多表查詢帶來的效能問題,在此我分享我這些年自己的優化經驗。1 在sql語句中我們很多時候會使用子查詢,如 select a.col1,a.col2,a.col3,a.col4,select b.co...