基於自然語義分析的大綱近似度分析

2021-10-08 19:56:00 字數 406 閱讀 1330

工作中遇到這樣一種困惑，需要從幾個基地的碩大無比的excel檔案中比對對某個裝置的維修大綱是否一致。比如有的基地要求「在50%fp平台下修改gk引數」，而有的基地同一件事情的描述是「修改gk引數（50%fp）」。用vlookup不太能解決這種問題。

於是乎研究了下語義識別，使用tfidf演算法可以比較有效的解決這個問題。

感謝這三篇部落格的介紹，以及其他部落格對tfidf演算法的介紹，使用python gensim包裡自帶的tfidf演算法模組，逐條遍歷每個大綱長描述在其他基地裡最接近的長描述。經嘗試可以減少8成的rpn系統大綱的比對。但是還有2成算出來最接近的大綱是錯的。因此還需要手動比對。

同時自然的看到lda演算法，想到用lda演算法分析不同的異常事件通知單，看能否自動分類。目前的效果很糟糕。可能無監督學習搞分類還是比較困難的，需要原始資料真的區別夠大。

自然語言處理（NLP）語義分析文字相似度

在做自然語言處理的過程中，我們經常會遇到需要找出相似語句的場景，或者找出句子的近似表達，這時候就需要把類似的句子歸到一起，這裡面就涉及到句子相似度計算的問題。句子相似度計算一共歸類了以下幾種方法下面來一一了解一下這幾種演算法的原理和 python 實現。編輯距離計算編輯距離，英文叫做 edit ...

基於深度學習問答系統中的語義相似度計算

問答系統，簡稱qa，是自然語言處理領域的一類經典問題。問答系統的模式基本上分為兩類 1.由輸入的問題在n個候選答案中選取乙個最佳的答案。2.由輸入的問題在已有的問題中選取乙個語義最相似的問題，將該已有問題的答案作為最終的答案返回。第一種問答系統類似與京東客服的自動回答系統，很多使用過京東客服或是客...

案例基於RMF的使用者價值度分析

通過python實現rfm，並分析使用者價值度，最終給到運營做分析使用。案例資料是某企業2016年的部分抽樣資料，資料於銷售系統，主要是使用者訂單記錄。檢視前5行資料，包含四個字段。主要檢視資料概覽缺失值情況異常值情況 1 通過describe 可檢視整體資料的基本描述性統計資訊，由於資料集中...