跳躍NLP曲線 自然語言處理研究綜述(一)(翻譯)

2021-08-28 01:11:59 字數 1299 閱讀 4406

自然語言處理(nlp)是一種在計算機領域中以理論為驅動,用於人類語言的自動分析和表示的技術。nlp研究從打卡和批量處理的時代發展而來(其中一句話的分析可能就需要7分鐘),到現在的谷歌時代和它的推薦系統(可在不到一秒的時間內處理數百萬個網頁)。本綜述文章借鑑了nlp研究的最新進展,以全新的視角審視nlp技術的過去、現在和未來。借鑑商業管理和營銷**領域的「跳躍曲線」正規化,這篇調查文章將nlp研究的演變重新解釋為三條重疊曲線的交集-即句法、語義和語用曲線,這將最終導致nlp研究演變為自然語言理解。

在網際網路誕生到2023年之間,社交網路也在其中誕生了,比如myspace、delicious、linkedin和facebook,網上只有幾十億位元組的資訊。但在今天,每週都會建立相同數量的資訊。伴隨著數百萬的人連線到全球資訊網上,社交網路的出現,以節省時間和成本的方式,為人們提供了新的內容-共享服務即允許使用者創造和分享他們自己的內容、想法和意見。資訊量的巨大,然後大部分的它們都非結構化的(因為它是專門為人類消遣而產生的),於是不能直接進行機器處理。文字的自動分析包括機器對自然語言的深刻理解,這是我們仍然遙遠的現實。

所有這些能力都需要從僅僅nlp轉變為通常被成為自然語言理解的能力。今天,大多數現有方法仍然基於文字的句法表示,一種主要依賴於詞共存頻率的方法。這種演算法受限於它們只能處理它們可以「看到」的資訊這一事實。作為人類文字處理器,我們並不會有這樣的限制,因為我們看到的每個詞都啟用了一系列與語義相關的概念,相關劇集和感官體驗,所有這些都可以完成複雜的nlp任務—比如詞義消歧、文字蘊涵和語義角色標記—以一種快速和輕鬆的方法。

計算機模型嘗試模仿人類大腦處理自然語言的方式來彌合這種認知差距,通過利用未在文字中明確表達的語義特徵。計算模型對於科學目的都是有用的(比如探索語言交流的本質),以及實際目的(例如實現有效的人機交流)。傳統的研究學科沒有這種工具去完全解決語言理解和生產如何運作的問題。即使你將所有方法結合起來,綜合理論也太複雜,無法使用傳統方法進行研究。但是,我們或許可以實現電腦程式這樣複雜的理論,然後通過觀察它們的表現來測試它們。通過檢視失敗的位置,我們可以逐步改進它們。計算模型可以提供關於人類行為的非常具體的**,然後可以由心理語言學家進行探索。通過繼續這一過程,我們最終可能會更深入地了解人類語言處理的發生方式。要實現這樣的夢想,需要具有前瞻性思維的心理學家、神經科學家、人類學家、哲學家和計算機科學家的共同努力。

與先前關於nlp研究的特定方面或應用的調查不同(例如,評價標準),基於知識的系統,文字檢索和連線模型,本綜述**根據三種不同的正規化,重點研究nlp研究的演變,即:詞包、概念包和敘述包模型。借鑑業務管理領域中「跳躍曲線」的概念,這篇調查文章解釋了nlp研究如何以及為何逐漸從詞彙語義轉向組合語義,並提供有關下一代基於敘事的nlp技術的見解。

**的剩下部分由以下結構組成:

NLP自然語言處理

第1部分自然語言處理入門 1.1自然語言處理入門.mp4 第2部分hmm和crf 1.1crf模型簡介.mp4 1.1hmm模型介紹.mp4 1.2文字處理的基本方法 part1.mp4 2.1新聞主題分類任務 第4步 part2.mp4 第43部分rnn 1.1rnn模型小結.mp4 1.1rnn...

NLP自然語言處理

老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import counter counttime 0 def seperate filename totalnum 0 郵件的總數 global counttime i 0 file open ...

自然語言處理NLP研究生新手

研究生因為要改 量一般不小,所以要學會 debug,真的幫助很大,很大,通過一步步打斷點,能夠看清每個變數所儲存的具體資訊,有次實在改不動 了,在大佬同學的推薦下入手。用的開發環境是 vscode,免費的,也有遠端開發除錯的外掛程式,也是在大佬同學的建議下,遠端伺服器使用 gpu 來一步步 debu...