資訊抽取 短語提取

2021-10-13 19:05:22 字數 1414 閱讀 7697

短語提取

在資訊抽取領域,另一項重要的任務就是提取中文短語,也即固定多字詞表達串的識別。短語提取經常用於搜尋引擎的自動推薦,文件的簡介生成等。

其顆粒度介於單詞和句子之間,nlp一系列任務的顆粒度排序如下:

短語的顆粒度(短語提取);

利用互資訊和左右資訊熵,我們可以輕鬆地將新詞提取演算法拓展到短語提取。只需將新詞提取時的字元替換為單詞, 字串替換為單詞列表即可。為了得到單詞,我們依然需要進行中文分詞。 大多數時候, 停用詞對短語含義表達幫助不大,所以通常在分詞後過濾掉。

from pyhanlp import

*""" 短語提取"""

text =

''' 演算法工程師

演算法(algorithm)是一系列解決問題的清晰指令,也就是說,能夠對一定規範的輸入,在有限時間內獲得所要求的輸出。

如果乙個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、

空間或效率來完成同樣的任務。乙個演算法的優劣可以用空間複雜度與時間複雜度來衡量。演算法工程師就是利用演算法處理事物的人。

1職位簡介

演算法工程師是乙個非常高階的職位;

學歷要求:本科及其以上的學歷,大多數是碩士學歷及其以上;

必須掌握計算機相關知識,熟練使用**工具matlab等,必須會一門程式語言。

2研究方向

3目前國內外狀況

目前國內從事演算法研究的工程師不少,但是高階演算法工程師卻很少,是乙個非常緊缺的專業工程師。

雷達訊號處理、生物醫學訊號處理等領域的一維資訊演算法處理。

另外還有2d轉3d演算法(2d-to-3d conversion),去隔行演算法(de-interlacing),運動估計運動補償演算法

(motion estimation/motion compensation),去噪演算法(noise reduction),縮放演算法(scaling),

銳化處理演算法(sharpness),超解析度演算法(super resolution) 手勢識別(gesture recognition) 人臉識別(face recognition)。

在通訊物理層等一維資訊領域目前常用的演算法:無線領域的rrm、rtt,傳送領域的調製解調、通道均衡、訊號檢測、網路優化、訊號分解等。

另外資料探勘、網際網路搜尋演算法也成為當今的熱門方向。

演算法工程師逐漸往人工智慧方向發展。'''

phrase_list = hanlp.extractphrase(text,5)

print

(phrase_list)

執行結果:

[演算法工程師, 演算法處理, 一維資訊, 演算法研究, 訊號處理]
何晗《自然語言處理入門》;

宗成慶《統計自然語言處理》;

李航《統計學習方法》;

評價性短語抽取

2.11具體思路 1 抽取短語時是按照詞性的規律,總結出一般有效短語的詞性模板,然後在已經標註有正 中 負的資料中,根據模板來匹配出評價短語。2 合併語義相近的短語 3 按照電影維度種子詞把短語劃分到各個維度 或對映到指定明星 4 根據短語匹配上的情感詞來劃分正負極性 2.12 流程圖 2.2.1模...

資訊抽取之街道抽取

從給定的語料中抽取出相應的道路資訊。資料向塘北大道西50公尺 天龍路與龍華路交叉口北50公尺 觀瀾大道490號附近 成都市錦江區海椒市街13號附7號 玉蘭西路 團結北路23號 湖塘鎮火炬北路12號 昆明市晉寧區莊蹺西路28 金水路合作路28 1號 長公大道浙江顯家門業閬中總 旁 安陽街道嶺下東路4號...

Java抽取網頁資訊

使用正規表示式及字串操作,抽取網頁資訊 去script public static string trimscript string content return result 去除注釋 public static string trimcomment string content return r...