開始進行自然語言處理

2021-10-06 09:17:38 字數 2488 閱讀 2612

當今,大多數應用程式仍在處理來自結構化和半結構化源的資料的世界中工作。 它們連線到sql資料庫以查詢資訊或顯示來自json或xml資料來源的資訊。 許多應用程式仍然避免從非結構化源(例如開放文字字段,富文字編輯器,資料庫clob(字元大物件)資料型別,社交**新聞流以及來自microsoft word,google docs等工具的完整文件)解析和提取知識的複雜性,以及adobe acrobat。

但是資訊世界在很大程度上是非結構化的。 人們以多種工具和格式輸入,搜尋和管理資訊。 現代應用程式不僅可以儲存和檢索非結構化資訊,還可以結合自然語言處理(nlp)的元素來改善使用者體驗,管理複雜資訊,啟用聊天機械人對話以及執行文字分析。

[深入了解infoworld: 超越nlp:構建聊天機械人的8個挑戰 。• 機器學習:如何建立推薦引擎 。]

nlp引擎旨在從文字和文件塊中提取資料,資訊,知識和情感。 他們經常混合使用解析技術,知識資料結構和機器學習演算法 ,以易於理解的格式提取資訊並將其呈現給人員和下游應用程式。

nlp引擎通常具有以下技術元件:

這些元件的組合使nlp引擎可以提供文件中包含的資訊的豐富摘要。 總結對於使用者可能直接有用,特別是對於涵蓋單個或相對較少概念的簡單文件。 例如,處理當今新聞的nlp引擎可以向使用者顯示文章的發布者,時間和地點。 這對於下游技術(例如搜尋引擎,聊天機械人和分析工具)也很有用,這些技術可以更輕鬆地處理從文件中彙總的結構化資訊。

儘管大多數nlp引擎都具有其中的一些基本技術元件,但是處理各種內容源和型別的複雜程度卻相差很大。

最簡單的引擎專注於小型文件和格式。 考慮乙個僅解析單詞,短語和簡短布林術語的搜尋引擎查詢框。 該引擎主要在尋找分離單詞,識別短語並解析基本邏輯運算子的功能,以便可以向搜尋引擎顯示乙個或多個較低階別的查詢。

在更高階的搜尋引擎中,查詢的某些含義和解釋有助於更好地確定上下文。 例如,使用關鍵字「美洲虎」進行的搜尋可能針對的是動物,汽車製造商,nfl橄欖球隊,或者可能是其他參考,可以使用使用者共享的其他參考來縮小搜尋範圍。

聊天機械人文字的相似之處在於,它們更經常使用短語和簡短的句子。 但是,儘管搜尋往往充滿主題和實體(即名詞),但聊天機械人的文字通常是名詞,動詞和情感的混合體。 例如,「我在重設密碼時遇到麻煩」表示在處理請求和向使用者表達人性化響應時應使用的請求服務(登入),請求的操作(密碼重置)和情感(否定) 。

解釋社交**內容(例如,facebook或linkedin上的推文和更新)還有許多其他挑戰。 較長的段落格式表示可能引用了多個主題和實體。 另外,理解情感和意圖可能比主題重要。 例如,知道某人打算購買一輛汽車對廣告客戶而言,比知道某人提及他或她最近出差所租用的汽車型別更為重要。

處理更大文件格式的引擎需要更多的解析和語言複雜性。 例如,如果引擎的目的是解析長篇新聞文章,則它必須能夠分隔句子,段落和部分,以更好地表示基礎資訊。 對於較大的文件格式(例如法律,財務,醫療和建築施工文件),要求的複雜程度變得尤為重要,因為知道文件中的重要位置。

識別日期,貨幣,數量或描述性屬性需要更複雜的技巧來識別關係和上下文。 例如,從法律和財務檔案中提取的日期和貨幣通常與事件名稱相關聯,例如合同條款或財務績效指標。 在施工檔案中,識別油漆顏色及其關聯的房間型別對製造商和承包商很有用。 對於醫學文獻,如果醫生知道其所在的身體部位,則發現癌症型別更有價值。

除了常見的實體和模式之外,nlp平台在使建立自定義概念,主題,實體,短語,模式和其他要在文字和文件中標識的元素的方式方面有所不同。

諸如amazon,microsoft,google和ibm之類的公共雲**商**的nlp引擎在其演算法的複雜性,處理查詢的效能,api的深度,處理不同文字,文件和檔案型別的通用性以及單位**上競爭以及其他因素。

但是,使用平台的工具來訓練自定義實體,主題和其他資訊工件的簡單性是在早期實驗中最重要的考慮因素。 哪些工具可以更輕鬆地提取文件和所需用例所需的資訊?

這是大型雲**商提供的用於配置其nlp平台以提取特定領域知識的工具和功能的簡短摘要。

建立實體和主題知識庫並非易事,因此一些雲提供商已開始構建標準或入門級的知識庫。 例如,有amazon comprehend medical可以提取醫療資訊,而microsoft已為地點,事件,**,天氣和其他公共區域預先構建了域 。

從這些示例中,您可以看到有多種方法可以對nlp引擎進行有關實體,主題和意圖的培訓。 簡單的方法從對映到主題的關鍵字列表開始。 然後,更複雜的引擎支援學習演算法,該演算法可掃瞄文件並將潛在的主題和關聯的短語呈現給使用者,以檢視它們是否應包含在培訓集中。 來自expert system , smartlogic和bitext的更複雜的引擎使用分類管理工具,並與nosql和marklogic等多模型資料儲存整合,因此可以將在文件上執行的概念匹配與引用的本體一起使用,以支援更複雜和可操作的推理。

在開始選擇技術並進行概念驗證之前,重要的是將所有具有定義範圍和成功標準的nlp實驗作為基礎。 確保了解培訓文字或文件的數量,提取所需的詳細程度,所需資訊的型別,提取所需的總體質量以及處理新文字所需的效能。 最好的實驗是何時可以在適度的要求下實現業務價值,並通過敏捷的迭代過程增加更多的複雜性。

from:

r語言進行自然語言處理 開始進行自然語言處理

r語言進行自然語言處理 當今,大多數應用程式仍在處理來自結構化和半結構化源的資料的世界中工作。它們連線到sql資料庫以查詢資訊或顯示來自json或xml資料來源的資訊。許多應用程式仍避免從非結構化源 例如開放文字字段,富文字編輯器,資料庫clob 字元大物件 資料型別,社交 新聞流以及來自micro...

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...