入門NLP task2 資料探索

–真的沒有–

非結構化資料的資料探索不像結構化資料，結構化資料可以通過資料探索得到很多有用的資訊，非結構化資料的資料探索得到的資訊有限。

僅僅能夠得到字元出現的頻率、次數，新聞的長度等等

先觀察新聞長度

train_df[
'text_len'
]= train_df[
'text'].
(lambda x:
len(x.split(
' ')))
train_df[
'text_len'
].describe(
)

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-z3ogyimq-1595425630998)(

從圖中可以看出，分布比較極端，但是更多的都分布在1000左右個字元

觀察新聞種類數量

train_df[
'label'
].value_counts(
).plot(kind=
'bar'
)

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-usfsszdr-1595425631003)(

可以看出新聞類別的數量也是不均衡的，類別不均衡將會影響到模型的訓練結果。

出現最多的字元

from collections import counter
all_lines =
''.join(
list
(train_df[
'text'])
)word_count = counter(all_lines.split(
' ')
)word_count =
sorted
(word_count.items(
), key=
lambda d:d[1]
, reverse=
true
)word_count, word_count[0]
, word_count[-1
]

出現最多的是，『3750』共出現了7482207，其次是『648』出現了4924852，再其次是『900』出現了3177505。並且由於這三個字元在每篇新聞中的覆蓋率很高，我們有理由認為是三個標點符號。因此如果把這三個字元當作標點符號，那麼，每篇新聞平均有78個句子左右。

每種新聞類別出現頻率最高的字元

for n in train_df[
'label'
].unique(
).tolist():
data = train_df[train_df[
'label'
]==n]
all_lines =
''.join(
list
(data[
'text'])
) word_count = counter(all_lines.split(
' ')
) word_count =
sorted
(word_count.items(
), key=
lambda d:d[1]
, reverse=
true
)print
('新聞種類：'
,n, word_count[0:
10])

新聞種類： 2 [('7399', 351887), ('6122', 343758), ('4939', 337756)]
新聞種類： 11 [ ('4939', 18591), ('6122', 18432), ('5560', 17933)]
新聞種類： 3 [ ('6122', 187922), ('4939', 173606), ('4893', 148767)]
新聞種類： 9 [('7328', 46426), ('6122', 43395), ('7399', 37560)]
新聞種類： 10 [ ('3370', 67775), ('2465', 44969), ('5560', 42447)]
新聞種類： 12 [('4464', 51393), ('3370', 45793), ('2465', 36589))]
新聞種類： 0 [('3370', 503448), ('4464', 306148), ('2465', 294242)]
新聞種類： 7 [('3370', 159142), ('5296', 132054), ('4464', 113117)]
新聞種類： 4 [ ('4411', 120131), ('7399', 86180), ('4893', 77408)]
新聞種類： 1 [ ('3370', 626663), ('900', 526300), ('4464', 445289)]
新聞種類： 6 [ ('6248', 193728), ('2555', 174927), ('5620', 156911)]
新聞種類： 5 [('6122', 159097), ('5598', 136710), ('4893', 130550)]
新聞種類： 8 [ ('6122', 57267), ('4939', 56147), ('913', 55199)]
新聞種類： 13 [('4939', 9651), ('669', 8923), ('6122', 8321)]

1入門 5探索資料

b 搜尋api b get bank search?q sort account number asc pretty rest方式搜尋bank索引下的所有資料，並且按照account number 上公升方式返回類似下面的搜尋方式 get bank search body為 sort b 初步學習...

資料探勘 task2資料探索分析EDA

2.示例載入各種資料科學以及視覺化庫載入資料資料總覽判斷資料缺失和異常了解值的分布特徵分為類別特徵和數字特徵，並對類別特徵檢視unique分布數字特徵分析型別特徵分析用pandas profiling生成資料報告 import pandas as pd import numpy ...

2 ext4 我的大資料探索（2）！

原系統 centos6.3 核心2.6.32 更新到3.6.9！不說廢話，直接走個 2 核心配置不要抄襲網路上的使用勾選，勾選會報錯。涉及部分編譯成模組 make mrproper 清除環境變數，即清除配置檔案 make menuconfig 在選單模式下選擇需要編譯的核心模組找到以下選中選項並...

入門NLP task2 資料探索

1入門 5探索資料

資料探勘 task2資料探索分析EDA

2 ext4 我的大資料 探索（2）！

相關推薦

2 ext4 我的大資料探索（2）！