文字處理的方法

2021-10-22 16:39:11 字數 2255 閱讀 3263

import jieba

content =

'公信**幹事每月經過下屬科室都要親**代24**換機等技術性器件的安裝工作'

# cut_all = true表示精確匹配,即返回最正確的分詞情況

print

(jieba.cut(content, cut_all=

true))

print

(jieba.lcut(content, cut_all=

true))

----

----

----

----

----

----

----

----

----

----

----

>

['公信'

,'**'

,'女幹事'

,'幹事'

,'每月'

,'月經'

,'經過'

,'下屬'

,'科室'

,'都'

,'要'

,'親口'

,'**'

,'交代'

,'24'

,'**'

,'交換'

,'交換機'

,'換機'

,'等'

,'技術'

,'技術性'

,'性器'

,'器件'

,'的'

,'安裝'

,'安裝工'

,'裝工'

,'工作'

]

import jieba

content =

'公信**幹事每月經過下屬科室都要親**代24**換機等技術性器件的安裝工作'

# cut_all = true表示精確匹配,即返回最正確的分詞情況

print

(jieba.cut(content, cut_all=

false))

print

(jieba.lcut(content, cut_all=

false))

----

----

----

----

----

----

----

----

----

----

--->

['公信'

,'處'

,'女幹事'

,'每月'

,'經過'

,'下屬'

,'科室'

,'都'

,'要'

,'親口'

,'交代'

,'24'

,'口'

,'交換機'

,'等'

,'技術性'

,'器件'

,'的'

,'安裝'

,'工作'

]

在精確分詞的基礎上,對長詞進行切割,提高召回率,適用於搜尋引擎分詞

import jieba

content =

'公信**幹事每月經過下屬科室都要親**代24**換機等技術性器件的安裝工作'

# cut_all = true表示精確匹配,即返回最正確的分詞情況

print

(jieba.cut_for_search(content)

)print

(jieba.lcut_for_search(content))-

----

----

----

----

----

----

----

----

----

----

--->

['公信'

,'處'

,'幹事'

,'女幹事'

,'每月'

,'經過'

,'下屬'

,'科室'

,'都'

,'要'

,'親口'

,'交代'

,'24'

,'口'

,'交換'

,'換機'

,'交換機'

,'等'

,'技術'

,'技術性'

,'器件'

,'的'

,'安裝'

,'工作'

]

jieben內部自定義了自己的詞庫,如果要往裡面新增屬於自己的詞庫,請參照這個鏈結的做法

shell文字處理

最於檔案的操作以前都是用高階程式語言來操作的。今天恰好需要將乙個目錄中的檔案資訊儲存到sqlite3資料庫中 我用linux中的工具和shell來作為自己畢業設計做原型開發 下面記錄一下這裡用到的部分知識,以作備忘。用ls命令來說明 1.關於shell中的管道和重定向問題。這個知識基礎,這裡不再說了...

WML 文字處理

wml使用xml文件字符集,目前支援unicode 2.0,和hdml不同,wml的所有標籤,屬性和規定的可接收值必須小寫,card的名字和變數也是區分大小寫的。和hdml一樣,對於連續的空字元,只顯示乙個空格。標籤內屬性的值必須用 或者 括起來,屬性名,和值之間不能有空格。對於不成對出現的標籤,必...

shell 文字處理

最近優化指令碼,將幾套指令碼合併,比如,處理nand手機的指令碼和處理emmc手機的指令碼是不一樣的,這導致我們的指令碼有很多個版本。手機側只有busybox,所以不能使用功能強大的python來處理文字。花了半天時間,發現雖然語法比較怪異,但也能簡潔的完成任務。if e proc emmc the...