Apache opennlp簡單介紹

2021-08-28 06:39:50 字數 1013 閱讀 2742

一、介紹

1、描述

apache opennlp庫是一種基於機器學習的工具包,用於處理自然語言文字。它支援最常見的nlp任務,如標記化,句子分割,詞性標記,命名實體提取,分塊,解析和參考解析。 通常需要這些任務來構建更高階的文字處理服務。 opennlp還包括基於最大熵和感知器的機器學習。

opennlp專案的目標是為上述任務建立乙個成熟的工具包。 另乙個目標是為各種語言提供大量預構建的模型,以及這些模型來自的注釋文字資源。

2、結構

apache opennlp庫包含幾個元件,使得能夠構建乙個完整的自然語言處理管道。 這些元件包括:句子檢測器,分詞器,名稱查詢器,文件分類器,詞性標記器,chunker,解析器,引數解析。元件包含能夠執行各自然語言處理任務,訓練模型以及通常還用於評估模型的部分。 每個這些設施都可以通過其應用程式介面(api)訪問。 此外,提供命令列介面(cli)以方便實驗和訓練。

3、1、)應用程式介面(api)。通用示例

opennlp元件具有類似的api。 通常,要執行任務,應該提供乙個模型和乙個輸入。

模型通常通過為模型類的建構函式提供乙個fileinputstream模型來載入:

inputstream modelin = new fileinputstream("lang-model-name.bin");

try

catch (ioexception e)

finally

catch (ioexception e)

}}

2、) 載入模型後,工具本身可以例項化。

toolname toolname = new toolname(model);

3、)在例項化工具之後,可以執行處理任務。輸入和輸出格式是特定於工具的,但通常輸出是乙個字串陣列,輸入是字串或字串陣列。

string output = toolname.executetask("this is a sample text.");

Ant Design簡單簡單簡單執行

config 配置檔案 config.js 路由定義檔案 路徑檔案 defaultsettings.js 主題顏色以及標題配置檔案 plugin.config.js 沒怎麼用過的配置檔案 dist 構建專案之後產生的檔案 mock mock資料檔案 用於本地開發使用 node modules 資源檔...

簡單題目不簡單回答

1 const變數與巨集的區別 2.程式的變數怎麼儲存的?3.巨集和列舉有什麼區別,定義陣列時使用列舉和使用巨集的區別 4.const變數是否可以做陣列下標 5.static的用法,static修飾類的方法時,是什麼意思 6.設計模式熟不熟?寫乙個最簡單的單例模式 7.如何用c實現物件導向 8.程式...

簡單的設計不簡單

最近看了 簡約至上 這本書,這本文章總結一下。推薦給對互動設計感興趣的童鞋。話說簡單 首先人們喜歡簡單 值得信賴 適應性強的產品。所以我們才會費盡心力去設計簡單的產品。人們喜歡簡單的產品原因有 1 產品的功能越多,就越難發現真正對使用者有價值的新功能。2 因為增加的複雜性導致他們很難找到自己真正需要...