ML 自然語言處理 關鍵技術

2021-10-10 04:31:14 字數 2358 閱讀 3607

詞性標註的定義

命名實體識別

華為雲學院

中文分詞(chinese word segmentation):指的是將乙個漢字序列切分成乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。

例如:一九九八年/中國/實現/進出口/總值/達/一千零九十八點二億/美元

規則分詞:一種機械分詞方法,主要是通過維護詞典,在切分語句時,將語句中的每個字串與詞表中的詞進行逐一匹配,找到則切分,否則不予切分。按照匹配切分的方式,主要有:

(1)正向最大匹配法(maximum match method,mm法)

(2)逆向最大匹配法(reverse maximum match method,rmm法)

(3)雙向最大匹配法(bi-direction match method,mm法)

特點:簡單高效,詞典維護困難。網路新詞層出不窮,詞典很難覆蓋所有詞。

將分詞作為字在字串中的序列標註任務來實現。每個字在構造乙個特定的詞語時都佔據著乙個確定的構詞位置,如果相連的字在不同的文字**現的次數越多,就證明這相連的字很可能就是乙個詞。

步驟:(1)建立統計語言模型

(2)對句子進行單詞劃分,然後對結果進行概率計算,獲得概率最大的分詞方式。如隱馬爾科夫(hmm)、條件隨機場(crf)等。

使用word2vec對詞料的詞進行嵌入,得到詞嵌入後,用詞嵌入特徵輸入給雙向lstm,對輸出的隱層加乙個線性層,然後加乙個crf得到最終實現的模型。

在實際工程應用中,多是基於一種分詞演算法,最常用的是先基於詞典的方式分詞,再用統計分詞方式進行輔助。

詞性標註是指為分詞結果中的每個單詞標註乙個正確的詞性的過程。比如乙個詞是名詞、動詞、形容詞或其他詞性。

詞性:詞彙基本的語法屬性。

目的:是很多nlp任務的預處理步驟,如句法分析、資訊抽取,經過詞性標註後的文字會帶來很大的便利性,但也不是不可或缺。

方法:基於規則的方法、基於統計的方法、基於深度學習的方法。

命名實體識別(named entities recognition,ner):又稱作「專名識別」,是指識別文字中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。例如:冶金/n 工業部/n 洛陽/ns 耐火材料/l 研究院/n。

ner研究的命名實體一般分為3大類(實體類、時間類和數字類)和7小類(人名、地名、組織機構名、時間、日期、貨幣和百分比)。

與自動分詞、詞性標註一樣,命名實體識別也是自然語言中的乙個基礎任務,是資訊抽取、資訊檢索、機器翻譯、問答系統等技術必不可少的組成部分。

步驟:(1)實體邊界識別。(2)確定實體類別(人名、地名、機構名)

難點:(1)各類命名實體的數量眾多。(2)命名實體的構成規律複雜。(3)巢狀情況複雜。(4)長度不確定

詞頻-逆文件頻率演算法(term frequency-inverse document frequency,tf-idf):是一種基於統計的計算方法,常用於評估在乙個文件集中乙個詞對某份文件的重要程度。

textrank演算法的基本思想**於google的pagerank演算法。pr演算法用來評價搜尋系統覆蓋網頁重要性的一種方法。其基本思想有兩條:

(1)鏈結數量。乙個網頁被越多的其他網頁鏈結,說明這個網頁越重要。

(2)鏈結質量。乙個網頁被乙個越高權重的網頁鏈結,也能說明這個網頁重要。

主題模型認為在詞與文件之間沒有直接的聯絡,它們應當還有乙個維度將它們串聯起來,這個維度稱為主題。每個文件都應該你對應著乙個或者多個主題,而每個主題都會有對應的詞分布,通過主題可以得到每個文件的詞分布。

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...

自然語言處理

一 字串操作 去空格及特殊符號 s hello,world 預設把左右空格去掉 print s.strip print s.lstrip hello,print s.rstrip 查詢字元 0 為未找到 sstr1 strchr sstr2 tr 找到返回目標子串開始下標 npos sstr1.in...