命令列工具

2021-06-20 18:30:44 字數 1616 閱讀 7490

執行 scws -h 可以看到詳細幫助說明。

```usage: scws [options] [[-i] input] [[-o]output]

```* _-i string|file_ 要切分的字串或檔案,如不指定則程式自動讀取標準輸入,每輸入一行執行一次分詞

* _-o file_ 切分結果輸出儲存的檔案路徑,若不指定直接輸出到螢幕

* _-c charset_ 指定分詞的字符集,預設是gbk,可選utf8

* _-r file_ 指定規則集檔案(規則集用於數詞、數字、專有名字、人名的識別)

* _-d file[:file2[:...]]_ 指定詞典檔案路徑(xdb格式,請在-c 之後使用)

```自 1.1.0 起,支援多詞典同時載入,也支援純文字詞典(必須是.txt結尾),多詞典路徑之間用冒號(:)隔開,

排在越後面的詞典優先順序越高。

文字詞典的資料格式參見 scws-gen-dict 所用的格式,但更寬鬆一些,允許用不定量的空格分開,只有《詞》是必備專案,

其它資料可有可無,當詞性標註為「!」(嘆號)時表示該詞作廢,即使在較低優先順序的詞庫中存在該詞也將作廢。

```* _-m level_ 復合分詞的級別:1~15,按位異或的 1|2|4|8 依次表示 短詞|二元|主要字|全部字,預設不復合分詞。

* _-i_ 輸出結果忽略跳過所有的標點符號

* _-a_ 顯示詞性

* _-e_ 將 xdb 詞典讀入記憶體 xtree 結構 (如果切分的檔案很大才需要)

* _-n_ 不顯示切分時間和提示

* _-d_ debug 模式 (很少用,需要編譯時開啟 --enable-debug)

* _-u_ 將閒散單字自動呼叫二分法結合

* _-t num_ 取得前 num 個高頻詞

* _-a [~]attr1[,attr2[,...]]_ 只顯示某些詞性的詞,加~表示過濾該詞性的詞,多個詞性之間用逗號分隔

* _-v_ 檢視版本

2. **$prefix/bin/scws-gen-dict**詞典轉換工具

```usage: scws-gen-dict [options] [-i] dict.txt[-o] dict.xdb

```* _-c charset_ 指定字符集,預設為gbk,可選utf8

* _-i file_ 文字檔案(txt),預設為 dict.txt

* _-o file_ 輸出 xdb 檔案的路徑,預設為 dict.xdb

* _-p num_ 指定 xdb 結構 hash 質數(通常不需要)

* _-u_ 反向解壓,將輸入的 xdb 檔案轉換為 txt 格式輸出 (todo)

> 文字詞典格式為每行乙個詞,各行由 4 個字段組成,字段之間用若干個空格或製表符(\t)分隔。

> 含義(其中只有 《詞》 是必須提供的),`#` 開頭的行視為注釋忽略不計:

> ```

> #《詞》 《詞頻(tf)> 《詞重(idf)> 《詞性(北大標註)>

> 新詞條 12.0       2.2          n

> ```

例如:scws -i ./zcy -c utf-8 -o yyy -d /usr/local/scws/etc/dict.utf8.xdb

命令列工具

在wince6.0 中,在vs2005 的 build 選單中,有乙個 advanced build commands 其中有很多編譯選項 sysgen 相當於執行命令 blddemo q 一般第一次編譯或者是 改變了 catalog 中的item 的時候,就用這個了。clean sysgen 相當...

c mysql命令列 mysql 命令列工具

1 mysql命令選項 2 mysql命令 3 mysql日誌 4 mysql服務端幫助 5 執行mysql指令碼 6 使用技巧 mysql是乙個能夠編輯輸入行的簡單sql shell,支援互動式和非互動式訪問。使用互動式時,查詢結果以ascii表的格式展示。使用非互動式時,查詢結果以製表符分隔的格...

Hive命令列工具

hive支援sequencefile,說明可以對檔案進行壓縮,rcfile支援列式儲存,做到稀疏儲存,減小空間,讀取速度快。圖 使用命令hive hiveconf hive.cli.print.current.db true 來設定hive 後面跟著資料庫的名字 圖 使用命令來設定查詢時出現列名 圖...