自然語言處理系列二十一》詞性標註》詞性標註原理

2021-10-19 05:25:42 字數 1809 閱讀 4691

《分布式機器學習實戰》(人工智慧科學與技術叢書)【陳敬雷編著】【清華大學出版社】

總結詞性標註(part-of-speech tagging, pos tagging)也被稱為語法標註(grammatical tagging)或詞類消疑(word-category disambiguation),是語料庫語言學(corpus linguistics)中將語料庫內單詞的詞性按其含義和上下文內容進行標記的文字資料處理技術。

詞性標註可以由人工或特定演算法完成,使用機器學習(machine learning)方法實現詞性標註是自然語言處理(natural language processing, nlp)的研究內容。常見的詞性標註演算法包括隱馬爾可夫模型(hidden markov model, hmm)、條件隨機場(conditional random fields, crfs)等。詞性標註主要被應用於文字挖掘(text mining)和nlp領域,是各類基於文字的機器學習任務,例如語義分析(semantic analysis)和指代消解(coreference resolution)的預處理步驟。下面我們分別從原理和實戰工具給大家詳細講解。

所謂詞性標註就是根據句子的上下文資訊給句中的每個詞確定乙個最為合適的詞性標記。比如,給定乙個句子:「我中了一張彩票」。對其的標註結果可以是:「我/代詞中/動詞/了/助詞/一/數詞/張/量詞/彩票/名詞。/標點」。

詞性標註的難點主要是由詞性兼類所引起的。詞性兼類是指自然語言中乙個詞語的詞性多餘乙個的語言現象。詞性兼類是自然語言中的普遍現象,例如下面的句子:s1=「他是山西大學的教授。」; s2=「他在山西大學教授計算語言學。」句子s1中,「教授」是乙個表示職稱的名詞,而句子s2中「教授」是乙個動詞。對人來說,這樣的詞性歧義現象比較容易排除,但是對於沒有先驗知識的機器來說是比較困難的。詞性兼類在漢語中很突出,據不完全統計,常見的詞性兼類現象有幾十種,這些兼類現象具有以下分布特徵:l)在漢語詞彙中,兼類詞的數量不多,約佔總詞條的5一11%。2)兼類詞的實際使用頻率很高,約佔總詞次的40一45%。也就是說,也是常用的詞,其詞性兼類現象越嚴重。3)兼類詞現象分布不均:在孫茂松等的統計中,僅動名兼類就佔全部兼類現象的49.8%;在張民門的統計中,動名兼類和形副兼類就佔全部113種兼類現象的62.5%。詞性兼類的消歧常採用概率的方法,如隱馬爾科夫模型。這些方法的有效性依賴於兼類詞性的概率分布。但是有些兼類的詞性的概率分布近似,特別是高頻的詞性兼類現象,如漢語的動詞名詞兼類,對於這些兼類現象,傳統的概率方法很難奏效,如何解決這個問題目前詞性標註面臨的主要困難之一。

【新書介紹】

《分布式機器學習實戰》(人工智慧科學與技術叢書)【陳敬雷編著】【清華大學出版社】

【精品課程】

《分布式機器學習實戰》大資料人工智慧ai專家級精品課程

從python程式設計零基礎小白入門到人工智慧高階實戰系列課

【充電了麼公司介紹】

專注工作職業技能提公升和學習,提高工作效率,帶來經濟效益!今天你充電了麼?

充電了麼官網

功能特色如下:

【全行業職位】 - 專注職場上班族職業技能提公升

除了專業技能學習,還有通用職場技能,比如企業管理、股權激勵和設計、職業生涯規劃、社交禮儀、溝通技巧、演講技巧、開會技巧、發郵件技巧、工作壓力如何放鬆、人脈關係等等,全方位提高你的專業水平和整體素質。

【牛人課堂】 - 學習牛人的工作經驗

1.智慧型個性化引擎:

2.聽課全網搜尋

2.閱讀全網搜尋

【機械人老師】 - 個人提公升趣味學習

基於搜尋引擎和智慧型深度學習訓練,為您打造更懂你的機械人老師,用自然語言和機械人老師聊天學習,寓教於樂,高效學習,快樂人生。

【精短課程】 - 高效學習知識

海量精短牛人課程,滿足你的時間碎片化學習,快速提高某個技能知識點。

自然語言處理之詞性標註

詞性標註作為nlp領域的一項基本任務,其與分詞任務同等重要,是很多任務的基礎,比如句法分析,命名實體識別等。命名實體識別在一定程度上也屬於標註任務,不過,難度相比一般的詞性標註而言,上公升了不少。對於詞性標註而言,不論是中文還是英文,其難點在於對於不同的語境,詞性的多變化 另一方面,隨著社會的發展,...

自然語言處理 詞性標註(北大,賓州)

詞性標註在中文領域暫無統一的標註標準,最常見較為主流的是北大和賓州詞性標註集。詞性編碼 詞性名稱 註解ag 形語素形容詞語素。形容詞 為a,語素 為g前面置以a a形容詞 取英語形容詞adjective的第1個字母 ad副形詞 直接作狀語的形容詞。形容詞 a和副詞 d並在一起 an名形詞 具有名詞功...

自然語言處理基礎技術之詞性標註實戰

安裝 pip install jieba 國內源安裝更快 pip install jieba i 先導包 jieba.posseg.dt 為預設詞性標註分詞器 標註句子分詞後每個詞的詞性,採用和 ictclas 相容的標記法。jieba貌似不能處理英文,後面會介紹處理英文的 import jieba...