學習NLP的第21天 短語提取

2021-10-05 22:49:56 字數 889 閱讀 5978

將基於資訊熵和互資訊的新詞提取方法(第20天)中的字元替換為單詞,即可將其轉換為短語識別的方法。

下面我們仍然使用神超直播間的彈幕的8個小時的時間切片作為例子,使用hanlp中的extractphrase方法實現。

from pyhanlp import

*from utils import

file

defextract

(corpus)

: text =

file

.as_string(corpus)

# 工具類:將檔案讀取為str

phrase_info_list = hanlp.extractphrase(text,20)

for phrase in phrase_info_list:

print

(phrase, end=

",")

if __name__ ==

"__main__"

: extract(

"data/神超直播間彈幕切片.txt"

)

(hanlp的短語提取模組僅支援二元語法短語,暫不支援n元語法短語的提取)

執行結果

超哥,神超,鬼書,吃雞,復活甲,狂戰,影劍聖,輪子媽,雷霆劫,皎月,劍轉,掠食者,正義手,法轉,發牌員,神裝,星煉金,玩影,婕拉,玩遊俠,
可以看到,其中有一些「鬼書」、「狂戰」等詞語其實不能算作是詞語,這是因為我沒把英雄聯盟領域的領域詞典匯入給分詞器,導致對分詞器來說,「鬼」、「書」、「狂」、「戰」等字都是單字成詞,所以將其識別為了短語。

因此,對新領域的短語提取應該在領域詞典的基礎上操作。

學習NLP的第13天 語言模型

在了解了詞典分詞之後,我們發現一些類似於 商品和服務 的句子並不能被準確地識別。由此,我們設想如何能夠提高準確率?乙個簡單有效的方法就是通過人工置頂分詞結果的優先順序列表,並使用到分詞器中。但是這樣的方法顯然需要大量的人工成本,並不現實。所以我們考慮是否可以通過製作乙個完成分詞的語料庫,通過統計所有...

千鋒學習的第21天 包裝類

千鋒馬海超 千鋒學習的20天包裝類 public class testinteger class adobjecr常用方法 public char charat in index 根據下標獲取字元 public boolean contains string str 判斷當前字串中是否包含了str ...

學習NLP的第1天 學習大綱及入門資源整理

我以前雖然在研究中用過一些nlp相關方法,但是都僅限於最基礎的應用,最近開始系統性地自學nlp。將學習過程進度以及遇到問題的解決方案記錄於此,不求踩出一條路,只求為其他自學的朋友踩掉一些坑。首先,我依據以前的了解和收集的各處教程 網課,整理了nlp主要的學習大綱。因為一些方法我並沒有用過也不了解,所...