學習NLP的第21天短語提取

將基於資訊熵和互資訊的新詞提取方法（第20天）中的字元替換為單詞，即可將其轉換為短語識別的方法。

下面我們仍然使用神超直播間的彈幕的8個小時的時間切片作為例子，使用hanlp中的extractphrase方法實現。

from pyhanlp import
*from utils import
file
defextract
(corpus)
: text =
file
.as_string(corpus)
# 工具類:將檔案讀取為str
phrase_info_list = hanlp.extractphrase(text,20)
for phrase in phrase_info_list:
print
(phrase, end=
",")
if __name__ ==
"__main__"
: extract(
"data/神超直播間彈幕切片.txt"
)

（hanlp的短語提取模組僅支援二元語法短語，暫不支援n元語法短語的提取）

執行結果

超哥,神超,鬼書,吃雞,復活甲,狂戰,影劍聖,輪子媽,雷霆劫,皎月,劍轉,掠食者,正義手,法轉,發牌員,神裝,星煉金,玩影,婕拉,玩遊俠,

可以看到，其中有一些「鬼書」、「狂戰」等詞語其實不能算作是詞語，這是因為我沒把英雄聯盟領域的領域詞典匯入給分詞器，導致對分詞器來說，「鬼」、「書」、「狂」、「戰」等字都是單字成詞，所以將其識別為了短語。

因此，對新領域的短語提取應該在領域詞典的基礎上操作。

學習NLP的第13天語言模型

在了解了詞典分詞之後，我們發現一些類似於商品和服務的句子並不能被準確地識別。由此，我們設想如何能夠提高準確率？乙個簡單有效的方法就是通過人工置頂分詞結果的優先順序列表，並使用到分詞器中。但是這樣的方法顯然需要大量的人工成本，並不現實。所以我們考慮是否可以通過製作乙個完成分詞的語料庫，通過統計所有...

千鋒學習的第21天包裝類

千鋒馬海超千鋒學習的20天包裝類 public class testinteger class adobjecr常用方法 public char charat in index 根據下標獲取字元 public boolean contains string str 判斷當前字串中是否包含了str ...

學習NLP的第1天學習大綱及入門資源整理

我以前雖然在研究中用過一些nlp相關方法，但是都僅限於最基礎的應用，最近開始系統性地自學nlp。將學習過程進度以及遇到問題的解決方案記錄於此，不求踩出一條路，只求為其他自學的朋友踩掉一些坑。首先，我依據以前的了解和收集的各處教程網課，整理了nlp主要的學習大綱。因為一些方法我並沒有用過也不了解，所...

學習NLP的第21天 短語提取

學習NLP的第13天 語言模型

千鋒學習的第21天 包裝類

學習NLP的第1天 學習大綱及入門資源整理

相關推薦

學習NLP的第21天短語提取

學習NLP的第13天語言模型

千鋒學習的第21天包裝類

學習NLP的第1天學習大綱及入門資源整理