對於單條短文本資料的分類(雜訊資料過濾)

2021-08-21 00:25:32 字數 2005 閱讀 1476

似乎還沒在語義方向來進行深入處理,這一年一直往結構特徵的角度來進行處理,但真真的覺得這還是乙個死胡同,沒辦法啊,所以叫人在江湖身不由己。哈哈。今天新思考了乙個點,就是通過統計的角度,來判斷詞性之間的搭配關係。

首先,我先講一下思路,我只是進行了很粗略的統計,甚至都是暴力的手段,通過統計二元詞性的搭配的問題,很粗略的判斷最可能出現的二種詞性的搭配問題。

其次,我說明一下,工作的前提約束調劑,詞性識別劃分的種類是12類。

verb - verbs (all tenses and modes) 動詞

noun - nouns (common and proper) 名詞

pron - pronouns 代詞(人稱代詞)

adj - adjectives 形容詞

adv - adverbs 副詞

adp - adpositions (prepositions and postpositions) 介詞

conj - conjunctions 連線詞

det - determiners 限定詞

num - cardinal numbers 數字

prt - particles or other function words 小品詞或結構詞、虛詞

x - other: foreign words, typos, abbreviations 縮略詞等

. - punctuation 標點

在不考慮我們詞性識別的錯誤的時候,哎,,其實識別的不准。。。假設。。。感覺錯誤會傳遞啊。。。哭,然後我們直接統計二元詞性的搭配情況,然後得到推文中有用推文的搭配最多的情況和無用推文中搭配最多的情況。

無用推文

[(('noun', 'noun'), 2575), (('pron', 'verb'), 1498), (('noun', 'verb'), 1268), (('det', 'noun'), 1047), (('verb', 'verb'), 981), (('adj', 'noun'), 873), (('verb', 'pron'), 853), (('noun', 'adp'), 765), (('verb', 'noun'), 760), (('verb', 'adv'), 626)]
有用推文

[(('noun', 'noun'), 3042), (('adp', 'noun'), 1350), (('noun', 'verb'), 1310), (('noun', 'adp'), 945), (('verb', 'adp'), 669), (('verb', 'noun'), 462), (('det', 'noun'), 427), (('num', 'noun'), 413), (('adj', 'noun'), 378), (('adp', 'det'), 239)]
從使用搭配最多的情況來說,在有用推文中還是偏向於使用介詞,在無用推文中偏向於使用人稱代詞。我覺得可能與訓練集有很大的關係,但我覺得有用推文的那部分還是有乙個的可信度,在看資料的時候,我也發現了這種規律,在有用推文中很多存在介詞,跟在動詞的後面,用來表示具體的什麼事,或者,用來描述發生了什麼。

舉幾個例子說明一下用法:

跟地點的情況:

rt @theheraldsun: afp officer dies in melbourne cbd shooting >>
跟動作的情況:

rt @kmphfox26: #breaking kcso: 1 dead, others hurt in shooting at a bakersfield's casino.
跟時間的情況:

以上的分析,均是基於乙個很簡單的分析,就直接利用暴力求解搭配的情況,主要看在資料庫中,詞性搭配最多的幾種情況,仍然需要做的事有:第一需要分析是不是資料集的影響。。這個真的很重要,哎,但這就又陷入了標記的苦惱之中。。不想標記資料了。。。第二需要細緻的思考了,目前的乙個思路是採用tf-idf來做。

python學習 102 文字資料的預處理 分詞

對於自然語言處理來講在一些情況下需要建立自己的語料庫,並將其訓練為模型,本片文章是將已經整理好的資料進行分詞和去除雜亂字元的操作。通過結巴分詞工具進行分詞,載入自定義的停用詞表 停用詞表內容 中科院 自定義 不喜勿噴 資料儲存在txt檔案中如下 分詞完成 1讀入檔案分詞之後存入檔案 def read...

關於DataFrame的文字資料匯入

dataframe確實使用方便,但是如果每次匯入資料都需要我們自己手動實現未免太麻煩了些,以下就介紹dataframe對不同格式檔案的匯入 本章僅僅介紹txt或文字檔案 name pop eco hu c 13 2 none a 2 1 none 最簡單的匯入方式 import pandas as ...

Oracle中匯入文字資料的方法

oracle中匯入文字資料的方法 方法一 dos 環境下使用sql loader命令 載入 方法二 使用其它資料庫的資料轉移工具 方法三 oracle 企業管理器中的資料載入功能 具體的技術實現 方法一 dos 環境下載入 1 首先,伺服器端的偵聽服務必須已經開啟。測試方法 dos 下輸入 c sq...