基於自然語義分析的大綱近似度分析

2021-10-08 19:56:00 字數 406 閱讀 1330

工作中遇到這樣一種困惑,需要從幾個基地的碩大無比的excel檔案中比對對某個裝置的維修大綱是否一致。比如有的基地要求「在50%fp平台下修改gk引數」,而有的基地同一件事情的描述是「修改gk引數(50%fp)」。用vlookup不太能解決這種問題。

於是乎研究了下語義識別,使用tfidf演算法可以比較有效的解決這個問題。

感謝這三篇部落格的介紹,以及其他部落格對tfidf演算法的介紹,使用python gensim包裡自帶的tfidf演算法模組,逐條遍歷每個大綱長描述在其他基地裡最接近的長描述。經嘗試可以減少8成的rpn系統大綱的比對。但是還有2成算出來最接近的大綱是錯的。因此還需要手動比對。

同時自然的看到lda演算法,想到用lda演算法分析不同的異常事件通知單,看能否自動分類。目前的效果很糟糕。可能無監督學習搞分類還是比較困難的,需要原始資料真的區別夠大。

自然語言處理(NLP)語義分析 文字相似度

在做自然語言處理的過程中,我們經常會遇到需要找出相似語句的場景,或者找出句子的近似表達,這時候就需要把類似的句子歸到一起,這裡面就涉及到句子相似度計算的問題。句子相似度計算一共歸類了以下幾種方法 下面來一一了解一下這幾種演算法的原理和 python 實現。編輯距離計算 編輯距離,英文叫做 edit ...

基於深度學習問答系統中的語義相似度計算

問答系統,簡稱qa,是自然語言處理領域的一類經典問題。問答系統的模式基本上分為兩類 1.由輸入的問題在n個候選答案中選取乙個最佳的答案。2.由輸入的問題在已有的問題中選取乙個語義最相似的問題,將該已有問題的答案作為最終的答案返回。第一種問答系統類似與京東客服的自動回答系統,很多使用過京東客服或是 客...

案例 基於RMF的使用者價值度分析

通過python實現rfm,並分析使用者價值度,最終給到運營做分析使用。案例資料是某企業2016年的部分抽樣資料,資料 於銷售系統,主要是使用者訂單記錄。檢視前5行資料,包含四個字段。主要檢視資料概覽 缺失值情況 異常值情況 1 通過describe 可檢視整體資料的基本描述性統計資訊,由於資料集中...