俞士汶教授談中文語言處理 一

2021-04-18 16:31:53 字數 1723 閱讀 3498

者按:我們多次前往北大計算語言學研究所和

俞士汶教授進行了分詞方面的技術交流,

俞教授的談話讓我們受益匪淺。我們特意對

俞教授進行了訪談,希望讀到此文的搜尋愛好者,也能和我們一起分享分詞知識、**搜尋未來。

訪談正文如下: 1

、與英語等歐洲語言相比,中文在資訊化處理上有很多不同的障礙,如:輸入、分詞等。請簡要介紹一下中文語言處理的研究領域和存在的挑戰?

中文資訊處理應該大致劃分為漢字資訊處理和漢語資訊處理兩個顯然不同的但相互又有聯絡的層次。在文字資訊處理的層次上,由於漢字是大字符集,與英語等歐洲語言採用的幾十個字母相比,發展程序中確實遭遇過很多不同的障礙,不過現在大體上已經克服了,漢字資訊處理技術已經實用化、產品化。

在語言資訊處理的層次上,特別是到了內容處理或語義理解的階段,人類語言共性的影響遠遠超出了它們各自的特性。以詞語切分(

segmentation

,即問題中的「分詞

」)而言,並不能說它是漢語的特別任務,其他語言(包括英語)也有相似的課題。

有實踐經驗的人又普遍感到(書面)漢語資訊處理確實存在一些特別的困難。原因主要在於書面漢語的以下兩個重要特點:

(1)不同的語言單位(以漢字表示的語素、詞、短語、句子乃至更大的單位)之間界限不清晰; (

2)中文的語言要素,特別是詞,在運用時缺乏指示其功能或語義的形態變化。

認識到漢語資訊處理的困難,漢語資訊處理發展的方向也就明確了。既要吸收國際上其他語言的先進理論、技術和經驗,也要充分重視漢語的特點。研究領域要做的工作很多,最具基礎性的工作應該是建設服務於漢語資訊處理的知識庫。

2、作為中文語言處理的獨特內容,中文分詞在國內外研究和應用領域都有什麼最新進展?

書面漢語的詞語切分是漢語資訊處理的第一道關口,姑且不論它是不是獨特內容。或許有的理論或系統聲稱沒有「分詞

」這個步驟,但從語句中辨識出可以作為操作單位的或語言知識庫之登入項(

entry

)的語言單位(不妨以「詞

」命名),總是無可迴避的。

完全正確的切分取決於對文字理解的深度或者說需要足夠的語境資訊,

「白天鵝在湖裡游泳

」即是一例。

目前自然語言理解技術未能取得突破,也不能期求詞語切分百分之百地正確。不同的應用對切分的精度有不同的要求,不同的軟體有不同的適用範圍。

作為漢語詞語切分研究領域的最近進展,有幾件事值得一談。

一是清華大學

孫茂松教授主持制訂的大型分詞詞表(可能尚未出版);

二是中科院計算所

劉群三是中國教育部語言文字應用研究所開發的平衡語料庫和北大計算語言學研究所開發的《人民**》基本加工語料庫,規模都有數千萬字。

另外,台灣中研院

黃居仁教授加工了有

11億字的

chinese gigaword corpus

,不過它是全自動進行的,而北大與語用所的加工結果都經過了人工校對。

樣本語料庫的意義不可低估。

劉群博士的軟體就是以半年《人民**》基本加工語料庫作為其統計演算法的訓練語料而開發出來的。北大計算語言所放在網上的

19400

。俞士汶等人制訂的語料庫加工規範(

2001

年版和2003

版)分別發表在《中文資訊學報》(

2003

年第5,6

期)和新加坡《漢語語言和計算學報》(

2023年第2

期)上,影響甚廣。

技術的普及和基礎資源的整備或許孕育了理論和技術的創新。

俞軍談產品經理12條

1,pm首先是使用者 2,站在使用者角度看待問題 3,使用者體驗是乙個完整的過程 4,追求效果,不做沒用的東西 5,發現需求,而不是創造需求 6,決定不做什麼,往往比決定做什麼更重要 7,使用者是很難被教育的,要迎合使用者,而不是改變使用者 8,關注最大多數使用者,在關鍵點上超越競爭對手,快速上線,...

俞軍談產品經理12條

1,pm首先是使用者 2,站在使用者角度看待問題 3,使用者體驗是乙個完整的過程 4,追求效果,不做沒用的東西 5,發現需求,而不是創造需求 6,決定不做什麼,往往比決定做什麼更重要 7,使用者是很難被教育的,要迎合使用者,而不是改變使用者 8,關注最大多數使用者,在關鍵點上超越競爭對手,快速上線,...

夏宇聞教授談FPGA工程師的入門學習

1.必須清楚自己究竟適合不適合做工程師。看看自己的性格特點,是不是特別安靜,又耐得住寂寞。因為fpga工程師是乙個辛苦的工作,不但要通過不斷學習研究提公升自己的設計水平,還要經常性的熬夜加班敲寫 如果沒有一種耐得住寂寞的性格,你最好不要去做fpga工程師。因為它不像銷售那樣,動動嘴皮子就可以掙到大錢...