R語言 jiebaR中文分詞包

2021-10-08 08:21:07 字數 2784 閱讀 6543

中文與英文做文字分析很多時候會多乙個分詞步驟,因為預設情況下,文字分析軟體會預設用空格作為分隔符處理文字,所以很多軟體需要先將中文文字分詞,整理成像英文那樣用空格間隔單詞的資料形式。

在r中有乙個jiebar中文分詞包,可以幫我們做分詞操作~

install.packages("jiebar")
jiebar::segment(code, jiebar)

對字串分詞

library(jiebar)
## loading required package: jiebard
#初始化jiebar中的worker,將這個工人命名為tokenizer

tokenizer <- worker()

#segment函式僱傭tokenizer幹分詞的活

words <- segment("市長江大橋視察長江大橋", tokenizer)

words

## [1] "市長"     "江大橋"   "視察"     "長江大橋"
剛剛給segment僱傭的worker時沒有設定工作要求,所以幹的活比較粗糙。現在我們把分詞這個工作細緻化。

worker(

type = "mix", 

user = userpath,

stop_word = 

stoppath, 

topn = 5,

symbol = f)

預設type="mix"

分詞結果帶著詞性

tokenizer <- worker(type='tag')

words <- segment("市長江大橋視察長江大橋", tokenizer)

words

##          n          x          v         ns 

##     "市長"   "江大橋"     "視察" "長江大橋"

有時候jiebar分詞容易把感興趣的詞分成更細粒度的詞,中國大媽這個詞,預設是會被分為中國大媽兩個詞。例如

tokenizer <- worker()

text <- "在**市場上,中國大媽戰勝華爾街金融大鱷"

segment(text, tokenizer)

##  [1] "在"       "**市場" "上"       "中國"     "大媽"     "戰勝"    

##  [7] "華爾街"   "金融"     "大"       "鱷"

這時候我們需要把中國大媽加到使用者自定義詞典中,通過詞典告訴worker,凡是遇到中國大媽,一律不許亂分,保持詞語其完整性。

diydict.txt我放到了data資料夾內,每行存放乙個詞語。

library(jiebar)

tokenizer <- worker(user="data/diydict.txt")

text <- "在**市場上,中國大媽戰勝華爾街金融大鱷"

segment(text, tokenizer)

## [1] "在"       "**市場" "上"       "中國大媽" "戰勝"     "華爾街"   "金融"    

## [8] "大"       "鱷"

是否保留符號,預設不保留

tokenizer <- worker()

text <- "在**市場上,大媽戰勝華爾街金融大鱷!!!"

segment(text, tokenizer)

## [1] "在"       "**市場" "上"       "大媽"     "戰勝"     "華爾街"   "金融"    

## [8] "大"       "鱷"

保留符號

tokenizer <- worker(symbol = true)

text <- "在**市場上,大媽戰勝華爾街金融大鱷!!!"

segment(text, tokenizer)

##  [1] "在"       "**市場" "上"       ","       "大媽"     "戰勝"    

##  [7] "華爾街"   "金融"     "大"       "鱷"       "!"        "!"       

## [13] "!"

r語言 | 讀寫txt、csv、excel檔案 

r語言 | 資料操作dplyr包

python相關[更新] python網路爬蟲與文字資料分析 

讀完本文你就了解什麼是文字分析

文字分析在經管領域中的應用概述  

綜述:文字分析在市場營銷研究中的應用

plotnine: python版的ggplot2作相簿

stylecloud:簡潔易用的詞云庫 

wow~70g上市公司定期報告資料集

漂亮~pandas可以無縫銜接bokeh  

yelpdaset: 酒店管理類資料集10+g

R語言jiebaR包的分詞學習

實訓中的自然語言處理部分,首先就是要分詞了,學習一下!使用jiebar的第一步當然是安裝jiabar包並載入咯 安裝 install.packages jiebar 載入 library jiebar 三種分詞語句的寫法 wk worker 方法1 wk 我希望未來會很好 方法2 wk 我希望未來會...

r語言安裝r包

cran,bioconductor還有github。bioconductor一般都是生物資訊方面的r包。github是 的託管平台,很多軟體,多種語言的程式包也都在這裡發布。install.packages dyplr 注意 更改映象 options repos c cran options bio...

包r語言 R語言入門之R包的安裝

install.packages metafor 即可順利安裝該r包。install.packages biocmanager library biocmanager install edger 3 接下來便是安裝源自github 的r包了,它的步驟和安裝源自bioconductor的r包類似,需要...