r語言進行自然語言處理 開始進行自然語言處理

2021-10-07 23:31:44 字數 2543 閱讀 2656

r語言進行自然語言處理

當今,大多數應用程式仍在處理來自結構化和半結構化源的資料的世界中工作。 它們連線到sql資料庫以查詢資訊或顯示來自json或xml資料來源的資訊。 許多應用程式仍避免從非結構化源(例如開放文字字段,富文字編輯器,資料庫clob(字元大物件)資料型別,社交**新聞流以及來自microsoft word,google docs等工具的完整文件)解析和提取知識的複雜性以及adobe acrobat。

但是資訊世界在很大程度上是非結構化的。 人們以多種工具和格式輸入,搜尋和管理資訊。 現代應用程式不僅可以儲存和檢索非結構化資訊,還可以結合自然語言處理(nlp)的元素來改善使用者體驗,管理複雜資訊,啟用聊天機械人對話並執行文字分析。

[深入了解infoworld: 超越nlp:構建聊天機械人面臨的8個挑戰 。• 機器學習:如何建立推薦引擎 。]

nlp引擎旨在從文字和文件塊中提取資料,資訊,知識和情感。 他們經常混合使用解析技術,知識資料結構和機器學習演算法 ,以可理解的格式提取資訊並將其呈現給人員和下游應用程式。

nlp引擎通常具有以下技術元件:

這些元件的組合使nlp引擎可以提供文件中包含的資訊的豐富摘要。 總結對使用者特別有用,特別是對於涵蓋單個或相對較少概念的簡單文件。 例如,處理當今新聞的nlp引擎可以向使用者顯示文章的發布者,時間和地點。 這對於下游技術(例如搜尋引擎,聊天機械人和分析工具)也很有用,這些技術可以更輕鬆地處理從文件中彙總的結構化資訊。

儘管大多數nlp引擎都具有其中的一些基本技術元件,但處理各種內容源和型別的複雜程度卻相差很大。

最簡單的引擎專注於小型文件和格式。 考慮乙個僅解析單詞,短語和簡短布林術語的搜尋引擎查詢框。 該引擎在很大程度上希望分離單詞,識別短語並解析基本邏輯運算子,以便可以向搜尋引擎呈現乙個或多個較低階別的查詢。

在更高階的搜尋引擎中,查詢的某些含義和解釋有助於更好地確定上下文。 例如,使用關鍵字「美洲虎」進行的搜尋可能針對的是動物,汽車製造商,nfl橄欖球隊,或者可能是其他參考,可以使用使用者共享的其他參考來縮小搜尋範圍。

聊天機械人文字的相似之處在於,它們更經常使用短語和短句。 但是,儘管搜尋往往充滿主題和實體(即名詞),但聊天機械人的文字通常是名詞,動詞和情感的混合體。 例如,「我在重設密碼時遇到麻煩」表示在處理請求和向使用者表達人性化響應時應使用的請求服務(登入),請求的操作(密碼重置)和情緒(否定) 。

解釋社交**內容(例如,facebook或linkedin上的推文和更新)還有許多其他挑戰。 較長的段落格式表示可能引用了多個主題和實體。 另外,理解情感和意圖可能比主題重要。 例如,知道某人打算購買一輛汽車對廣告客戶而言,比知道某人提及他或她最近出差所租用的汽車型別更為重要。

處理更大文件格式的引擎需要更多的解析和語言複雜性。 例如,如果引擎的目的是解析長篇新聞,則它必須能夠分隔句子,段落和部分,以更好地表示基礎資訊。 對於較大的文件格式(例如法律,財務,醫療和建築施工文件),要求的複雜程度變得更加重要,因為知道文件中的重要位置。

識別日期,貨幣,數量或描述性屬性需要更複雜的技巧來識別關係和上下文。 例如,從法律和財務檔案中提取的日期和貨幣通常與事件名稱相關聯,例如合同條款或財務績效指標。 在施工檔案中,識別油漆顏色及其關聯的房間型別對製造商和承包商很有用。 對於醫學文獻,如果醫生知道其所在的身體部位,則發現癌症型別更有價值。

除了常見的實體和模式之外,nlp平台在使建立自定義概念,主題,實體,短語,模式和其他要在文字和文件中標識的元素的方式方面有所不同。

諸如amazon,microsoft,google和ibm之類的公共雲**商**的nlp引擎在其演算法的複雜性,查詢處理的效能,api的深度,處理不同文字,文件和檔案型別的通用性以及單位**上競爭以及其他因素。

但是,使用平台的工具來訓練自定義實體,主題和其他資訊工件的簡單性是在早期實驗中最重要的考慮因素。 哪些工具可以更輕鬆地提取文件和所需用例所需的資訊?

這是大型雲**商提供的用於配置其nlp平台以提取特定領域知識的工具和功能的簡短摘要。

建立實體和主題知識庫並非易事,因此一些雲提供商已開始構建標準或入門級的知識庫。 例如,有amazon comprehend medical可以提取醫療資訊,而microsoft則為場所,事件,**,天氣和其他公共區域預先構建了域 。

從這些示例中,您可以看到有多種方法可以對nlp引擎進行有關實體,主題和意圖的培訓。 簡單的方法從對映到主題的關鍵字列表開始。 然後,更複雜的引擎支援學習演算法,該演算法可以掃瞄文件並將潛在的主題和相關的短語提供給使用者,以檢視是否應將它們包含在培訓集中。 來自expert system , smartlogic和bitext的更複雜的引擎使用分類管理工具,並與nosql和諸如marklogic的多模型資料儲存整合,因此可以將在文件上執行的概念匹配與引用的本體一起使用,以支援更複雜和可操作的推理。

在開始選擇技術並進行概念驗證之前,重要的是將所有具有定義範圍和成功標準的nlp實驗作為基礎。 確保了解培訓文字或文件的數量,提取所需的詳細程度,所需資訊的型別,提取所需的總體質量以及處理新文字所需的效能。 最好的實驗是何時可以在適度的需求下交付業務價值,並通過敏捷的迭代過程增加更多的複雜性。

翻譯自:

r語言進行自然語言處理

開始進行自然語言處理

當今,大多數應用程式仍在處理來自結構化和半結構化源的資料的世界中工作。它們連線到sql資料庫以查詢資訊或顯示來自json或xml資料來源的資訊。許多應用程式仍然避免從非結構化源 例如開放文字字段,富文字編輯器,資料庫clob 字元大物件 資料型別,社交 新聞流以及來自microsoft word,g...

R語言自然語言處理 情感分析

歡迎關注天善智慧型,我們是專注於商業智慧型bi,人工智慧ai,大資料分析與挖掘領域的垂直社群,學習,問答 求職一站式搞定!情感分析,就是根據一段文字,分析其表達情感的技術。比較簡單的情感分析,能夠辨別文字內容是積極的還是消極的 褒義 貶義 比較複雜的情感分析,能夠知道這些文字是否流露出恐懼 生氣 狂...

R語言自然語言處理 情感分析

前文參考 hoper r語言自然語言處理 中文分詞 hoper r語言自然語言處理 詞性標註與命名實體識別 hoper r語言自然語言處理 詞嵌入 word embedding 情感分析,就是根據一段文字,分析其表達情感的技術。比較簡單的情感分析,能夠辨別文字內容是積極的還是消極的 褒義 貶義 比較...