初入中文資訊處理

最近往中文資訊處理的方向進行研究，查閱資料，翻看書籍，做了一下總結。

「自然語言處理」的英文是"natural language processing"，簡寫為nlp，注意了，以後見到「nlp」要知道是啥，不然就讓人笑掉大牙了。這裡在擴充套件幾個：

計算語言學

computational linguistics

計量語言學

quantitative linguistics

數理語言學

mathenmatical linguistics

自然語言理解

natural language understanding

人類語言技術

human language technology

中文資訊處理

natural information processing

研究內容依次為：

漢字資訊處理。研究漢字的輸入輸出和編碼。

詞的資訊處理。中文的詞語之間內有空格，沒有詞性變化，比起其他語言，需要分詞、確定詞性、詞義等。

句子的資訊處理。對詞處理之後的詞/詞性進行剖析，即句法分析。

句子語義表達與分析。語義形式化。

基礎資源：語料庫和知識庫

1.歧義

歧義是自然語言處理中的一大難點，包括語音歧義、分詞歧義、結構歧義、詞義歧義.

2. 語法

中文語法與西文語法有很大不同，例如英語可以利用其語法形態上的變化，如詞性、時態、語態等在語言的表示形式上有所區別，而漢語

一來一模一樣的字可以有不同的詞性，即同乙個詞有多種詞性而表示形式不變；

二來語法千變萬化，靈活性大，至今沒有乙個健全的規則來描述它；

三來漢語語序多種多樣，不同的語序又有不用的含義，目前可以說是毫無規則；

四來漢語多省略，只要語義清晰，主要成分、虛詞助詞等都可以省略且不影響表達。

在自然語言的研究方法上，歷來有理性主義和經驗主義。

理性主義一規則方法為主，經驗主義以統計方法為主（機器學習）。他們各有利弊，相互也爭了很久，目前從效果上基於統計的方法以及該全面超越了基於規則的方法，但是當語料規模增長到一定程度時，其精度必然回達到乙個極限。

基於規則的方法受到了語言學知識的限制，總是不能找到一套向牛頓、愛因斯坦等人找到的通用的定律一樣的理論。

基於統計的方法總是照顧多數忽略少數，只是出於對語料的概率擬合，並沒有真正理解語言，很難走向語義理解。

學生資訊處理程式

實現乙個學生資訊處理程式，計算乙個學生的四年平均成績。要求實現乙個代表學生的類，並且類中所有成員變數都是私有的補充下列程式中的 student 類以實現上述功能。include include include include include include using namespace std...

合作資訊處理模型

合作資訊處理模型介紹 b業務經理的到來a公司洽談合作，a公司老闆接待會晤，經握手完畢老闆會做下乙個和後續的管理c。允許c直接地a進入談判，然後，c找了幾個技術人員 c1 c2 c3 b多帶幾個業務人員 b1 b2 b3，模組然後c與b協定手下的搭配。然後手下都認識一下，留下接下來的各個模...

DOS下正確顯示中文資訊

很多使用者在windows中建立資料夾或檔案時喜歡用中文命名。不過，當你的windows由於發生故障無法進入，需要格式化硬碟重新安裝系統時，你會發現麻煩來了由於需要先在純dos下備份檔案夾的內容，但在預設情況下純dos並不支援中文，因此執行dir命令後出現在面前的是一堆亂碼，根本無法進行複製。...

初入中文資訊處理

學生資訊處理程式

合作資訊處理模型

DOS下正確顯示中文資訊

相關推薦