利用百度的詞法分析區分資料

2021-08-25 19:43:19 字數 3228 閱讀 2743

我以區分名人資料與非名人資料為例。何為名人資料、非名人資料 ?

名人資料:介紹某位名人的一段(一句)話,例如:raj babbar,演員,主要作品有《迷宮下的罪惡2》、《天命玩家》、《bodyguard》等。

非名人資料:不是介紹某位名人的一段(一句)話,例如:德國abasag一向致力於促進「企業資源規劃系統」(erp)在中國的發展。

aipnlp是自然語言處理的python sdk客戶端,為使用自然語言處理的開發人員提供了一系列的互動方法。

from aip import aipnlp

api_key = '你的 api key'

secret_key = '你的 secret key'

如果使用者需要配置aipnlp的網路請求引數(一般不需要配置),可以在構造aipnlp之後呼叫介面設定引數,目前只支援以下引數:

介面說明

setconnectiontimeoutinmillis

建立連線的超時時間(單位:毫秒)

setsockettimeoutinmillis

通過開啟的連線傳輸資料的超時時間(單位:毫秒)

詞法分析界面向使用者提供分詞、詞性標註、專名識別三大功能;能夠識別出文字串中的基本詞彙(分詞),對這些詞彙進行重組、標註組合後詞彙的詞性,並進一步識別出命名實體。

""" 呼叫詞法分析 """

client.lexer(text);

詞法分析 請求引數詳情

引數名稱

是否必選

型別說明

text

是string

待分析文字(目前僅支援gbk編碼),長度不超過65536位元組

詞法分析 返回資料引數詳情

引數名稱

型別必需

詳細說明

text

string

是原始單條請求文字

items

array(object)

是詞彙陣列,每個元素對應結果中的乙個詞

+item

string

是詞彙的字串

+nestring

是命名實體型別,命名實體識別演算法使用。詞性標註演算法中,此項為空串

+pos

string

是詞性,詞性標註演算法使用。命名實體識別演算法中,此項為空串

+byte_offset

int是

在text中的位元組級offset(使用gbk編碼)

+byte_length

int是

位元組級length(使用gbk編碼)

+uri

string

否鏈指到知識庫的uri,只對命名實體有效。對於非命名實體和鏈結不到知識庫的命名實體,此項為空串

+formal

string

否詞彙的標準化表達,主要針對時間、數字單位,沒有歸一化表達的,此項為空串

+basic_words

array(string)

是基本詞成分

+loc_details

array(object)

否位址成分,非必需,僅對位址型命名實體有效,沒有位址成分的,此項為空陣列。

++type

string

是成分型別,如省、市、區、縣

++byte_offset

int是

在item中的位元組級offset(使用gbk編碼)

++byte_length

int是

位元組級length(使用gbk編碼)

詞法分析 返回示例

,,,

,]

}]}

詞性縮略說明詞性

含義詞性

含義詞性

含義詞性含義n

普通名詞

f方位名詞

s處所名詞

t時間名詞

nr人名

ns地名

nt機構團體名

nw作品名

nz其他專名

v普通動詞

vd動副詞

vn名動詞

a形容詞

ad副形詞

an名形詞d副詞

m數量詞q量詞

r代詞p介詞

c連詞u助詞

xc其他虛詞

w標點符號

專名識別縮略詞含義

縮略詞含義縮略詞

含義縮略詞

含義縮略詞

含義per

人名loc

地名org

機構名time

時間

from aip import aipnlp

api_key = '你的 api key'

secret_key = '你的 secret key'

然後建立倆個計數器,分別用來計量特徵資料與非特徵資料的個數

# 定義乙個計數器,統計所有的單元數

counter_all=0

# 定義乙個計數器,統計所有的單元數

counter_need=0

載入我們需要區分的資料

text = 'raj babbar,演員,主要作品有《迷宮下的罪惡2》、《天命玩家》、《bodyguard》' 

jsondata = client.lexer(text)

for

each

in jsondata['items']:

ifeach['ne'] in ['per','loc','org','time']:

counter_need+=1

elif each['pos'] in ['nw','nr','t','m']:

counter_need+=1

ifeach['pos'] in ['w']:

pass

else:

counter_all+=1

最後列印名人特徵資料佔比,結果為

print('名人特徵資料佔比為:'+str(counter_need/counter_all))

>>>名人特徵資料佔比為:0.375

名人資料的特徵資料佔比在0.15以上基本就可以確認為名人資料了,名人資料與非名人資料的實際分界線還要參照具體的語料庫。

資料分析(摘自百度)

spss的統計分析教程 http zhibao.swu.edu.cn epcl spss spss.htm 資料分析步驟 1 探索性資料分析,當資料剛取得時,可能雜亂無章,看不出規律,通過作圖 造表 用各種形式的方程擬合,計算某些特徵量等手段探索規律性的可能形式,即往什麼方向和用何種方式去尋找和揭示...

百度收錄的分析見解

1,新 3 做好 結構,優化好內鏈,還有seo標題等等。4 暫時不過多做外鏈,要做就做高質量的,且不作弊。原文url 第 一 做內鏈 第 二 增加外鏈 ok,以上就是對付 被收錄後,改標題不被抓取的最實用的方法,其實最簡單的方法,也就是最有效的方法,只要堅持就是勝利 第二 新站老站 如果我們的 檢查...

百度收錄的分析見解

1,新 3 做好 結構,優化好內鏈,還有seo標題等等。4 暫時不過多做外鏈,要做就做高質量的,且不作弊。原文url 第 一 做內鏈 第 二 增加外鏈 ok,以上就是對付 被收錄後,改標題不被抓取的最實用的方法,其實最簡單的方法,也就是最有效的方法,只要堅持就是勝利 第二 新站老站 如果我們的 檢查...