入門NLP task2 資料探索

2021-10-08 10:17:16 字數 2695 閱讀 9473

–真的沒有–

非結構化資料的資料探索不像結構化資料,結構化資料可以通過資料探索得到很多有用的資訊,非結構化資料的資料探索得到的資訊有限。

僅僅能夠得到字元出現的頻率、次數,新聞的長度等等

先觀察新聞長度

train_df[

'text_len'

]= train_df[

'text'].

(lambda x:

len(x.split(

' ')))

train_df[

'text_len'

].describe(

)

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-z3ogyimq-1595425630998)(

從圖中可以看出,分布比較極端,但是更多的都分布在1000左右個字元

觀察新聞種類數量

train_df[

'label'

].value_counts(

).plot(kind=

'bar'

)

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-usfsszdr-1595425631003)(

可以看出新聞類別的數量也是不均衡的,類別不均衡將會影響到模型的訓練結果。

出現最多的字元

from collections import counter

all_lines =

''.join(

list

(train_df[

'text'])

)word_count = counter(all_lines.split(

' ')

)word_count =

sorted

(word_count.items(

), key=

lambda d:d[1]

, reverse=

true

)word_count, word_count[0]

, word_count[-1

]

出現最多的是,『3750』 共出現了7482207,其次是『648』出現了4924852,再其次是『900』出現了3177505。並且由於這三個字元在每篇新聞中的覆蓋率很高,我們有理由認為是三個標點符號。因此如果把這三個字元當作標點符號,那麼,每篇新聞平均有78個句子左右。

每種新聞類別出現頻率最高的字元

for n in train_df[

'label'

].unique(

).tolist():

data = train_df[train_df[

'label'

]==n]

all_lines =

''.join(

list

(data[

'text'])

) word_count = counter(all_lines.split(

' ')

) word_count =

sorted

(word_count.items(

), key=

lambda d:d[1]

, reverse=

true

)print

('新聞種類:'

,n, word_count[0:

10])

新聞種類: 2 [('7399', 351887), ('6122', 343758), ('4939', 337756)]

新聞種類: 11 [ ('4939', 18591), ('6122', 18432), ('5560', 17933)]

新聞種類: 3 [ ('6122', 187922), ('4939', 173606), ('4893', 148767)]

新聞種類: 9 [('7328', 46426), ('6122', 43395), ('7399', 37560)]

新聞種類: 10 [ ('3370', 67775), ('2465', 44969), ('5560', 42447)]

新聞種類: 12 [('4464', 51393), ('3370', 45793), ('2465', 36589))]

新聞種類: 0 [('3370', 503448), ('4464', 306148), ('2465', 294242)]

新聞種類: 7 [('3370', 159142), ('5296', 132054), ('4464', 113117)]

新聞種類: 4 [ ('4411', 120131), ('7399', 86180), ('4893', 77408)]

新聞種類: 1 [ ('3370', 626663), ('900', 526300), ('4464', 445289)]

新聞種類: 6 [ ('6248', 193728), ('2555', 174927), ('5620', 156911)]

新聞種類: 5 [('6122', 159097), ('5598', 136710), ('4893', 130550)]

新聞種類: 8 [ ('6122', 57267), ('4939', 56147), ('913', 55199)]

新聞種類: 13 [('4939', 9651), ('669', 8923), ('6122', 8321)]

1入門 5探索資料

b 搜尋api b get bank search?q sort account number asc pretty rest方式搜尋bank索引下的所有資料,並且按照account number 上公升方式返回 類似下面的搜尋方式 get bank search body為 sort b 初步學習...

資料探勘 task2資料探索分析EDA

2.示例 載入各種資料科學以及視覺化庫 載入資料 資料總覽 判斷資料缺失和異常 了解 值的分布 特徵分為類別特徵和數字特徵,並對類別特徵檢視unique分布 數字特徵分析 型別特徵分析 用pandas profiling生成資料報告 import pandas as pd import numpy ...

2 ext4 我的大資料 探索(2)!

原系統 centos6.3 核心2.6.32 更新到3.6.9!不說廢話,直接走個 2 核心配置 不要抄襲網路上的使用勾選,勾選會報錯。涉及部分編譯成模組 make mrproper 清除環境變數,即清除配置檔案 make menuconfig 在選單模式下選擇需要編譯的核心模組 找到以下選中選項並...