統計自然語言的合理性 標註

2021-07-26 16:35:50 字數 768 閱讀 6340

今天拜讀了宗成慶老師的統計自然語言處理,講到了分詞標註使用的n元語法。標註時候考慮上下文,也就是向前考慮n個詞的詞性。覺得這是只是乙個統計的數學統計方法,

下來一細想發現,這在理論上和我們認知是一樣的,和我們人類學習是一樣的。當我們在讀到乙個句子要理解這個句子,如果這個句子是我們熟悉的句子

我們會一下理解這些意思,如果是生僻的句子。比如:漢語學習文言文的過程,我們遇到會學,之、乎、者、也這樣的詞。

比如:「學而時習之,不亦說乎?」要理解這句話的前提是正確理解每乙個字的意思,要理解意思要分析詞性。比如:『之』一字,

有多種意思分別做動詞、代詞、介詞、助詞。當『之』前乙個字為動詞時,自身做代詞的有2,3,4,5,6,做動詞1(其它依然)。這裡習也為動詞,所以我們認為之為

代詞。那我們認為這裡的之為代詞。這裡的這個截圖就是我們的語料庫,所以根據概率統計我們得到了『之』的詞性為代詞。但是

這一定對嘛?不一定,「吾欲之南海」就是乙個反例。這裡的實際意思到...去。我想要到南海去的意思。如果機器學習得到為代詞是否是錯誤對的

?我認為不是。『之』和『南海』構成復合名詞,動詞後接名詞,一樣正確,翻譯為:「我想要這南海」。所以基於我認為這是標註的難點。如果我這樣翻譯,老師就會告訴我這樣不對。為什不對?老師說改翻譯為「我要到南海去」。因為上下文不僅是句子裡面的意思,而且要看上下幾句的意思,整片文章的意思。期待後面的知識就解決這個問題,否則,我認為這也可以理解,因為人也會這麼翻譯。

任務排程的合理性

假定乙個工程專案由一組子任務構成,子任務之間有的可以並行執行,有的必須在完成了其它一些子任務後才能執行。任務排程 包括一組子任務 以及每個子任務可以執行所依賴的子任務集。比如完成乙個專業的所有課程學習和畢業設計可以看成乙個本科生要完成的一項工程,各門課程可以看成是子任務。有些課程可以同時開設,比如英...

棧元素的合理性

輸入一串行的元素,判斷另一列元素是否符合棧的 先進後出 性質 include include include using namespace std bool check int stack in,int stack out,int len in,int len out return s.size ...

判斷括號的合理性

給出乙個僅包含字元 和 的字串,判斷給出的字串是否是合法的括號序列 括號必須以正確的順序關閉,和 都是合法的括號序列,但 和 不合法。本次題目主要考察了棧的思想,採用假設的方法,如果該字串是合法的,每乙個左括號一定會對應乙個右括號,所以在出棧的時候一定是和當前所對應的字元一樣。public stat...