怎麼用python電商文字挖掘? 5

2021-10-07 22:41:28 字數 3075 閱讀 1928

定義檔案路徑

os.chdir(

'..'

)os.chdir(

)用glob把裡面檔名都拿到 並賦值給filenames5

filenames5 = glob.glob(

'*.xlsx'

)filenames5

讀取其中的bai的資料

)轉換為列表為後邊處理文字使用

接下來要把這些資料洗乾淨,然後再做 詞云啊 dtm啊 看需要是否建模啊,等等這樣的思路展開。

bai61 =

[re.sub(r'[^a-z\u4e00-\u9fa5]+'

,' '

,i,flags=re.i)

for i in bai6]

r表示宣告是原始字串,避免與轉義字元衝突,平時經常放上

表示裡面的關係是取 或 的關係

^ 表示 非 的意思 就是除了中文和英文的意思

a-z\u4e00-\u9fa5 固定表示 中文和英文的 **

' ',是替換成空格

i 是準備替換的資料

flages=re.i 表示大小寫都算

正規表示式

執行完後 資料中的除了中文英文外的其他東西都沒有了:

,'蟑螂'])

自己按業務增加 停用詞

bai62 =

# 定義乙個列表

for i in bai61:

#bbai61是保留中英文後的列表

seg0 = pd.series(jieba.lcut(i)

)# 用series 後邊好做布林索引 這一步是 用i在bai61這個列表裡面 去迴圈每一句話 然後用jieba分詞

ind1 = pd.series(

[len

(j)for j in seg0]

)>

1# [len(j) for j in seg0]是對分好詞的seg0 裡面的 做判斷 是否長度大於 1 去掉等於1的詞

seg1 = seg0[ind1]

# 布林索引 得到seg1 去掉了長度小於1的

ind2 =

~seg1.isin(pd.series(stopwords)

)# ~ 符號表示取反的意思 isin判斷 seg1裡面的詞是否在停用詞中 返回布林值 取反就是要不在 停用詞中的

seg2 =

list

(seg1[ind2]

.unique())

# 分好詞 去掉長度小於1的 seg1 進行布林索引(去停用詞) 和 去重 得到 列表 seg2

iflen

(seg2)

>

0:

列表生成式子,把乙個列表中的列表,都變成字串,生成在一張大列表中:

bai63 =

[y for x in bai62 for y in x]

bai63

# 或如下方式:

計算詞頻:

按照詞云包的格式

組合多個字元為乙個長字元,空格分隔

設定字型的路徑,不然最後顯示不出來

font=r'‪c:\windows\fonts\msyh.ttc'

放入詞云包

wc = wordcloud(font_path=font)

.generate(bai64)

將圖形畫出來

將詞雲圖匯出

wc.to_file(

'd:/data/python/情詞雲.png'

)

「電商評論觀點挖掘」 比賽總結

一 序列標註部分 序列標註思路 採用的bio 資料標註模式 基於bert 或 bi lstm crf 進行 模型訓練 和 任務 生成後的結果合併 到 picklabel test.txt 二 觀點 屬性 分類 模型 1.利用 標註處理工具,將提取結果 格式化 2.根據 提取結果 在原文本中進行抽取 ...

電商APP製作應該怎麼玩?

apicloud 標準化技術定製,高效低投入產效益 官方簽約保上線,專案監理更直接 apicloud 作為平台方,與企業客戶直接簽約。apicloud cto親自為專案進行評估並指派資深專案監理,嚴格把控專案質量和開發周期。官方承諾每乙個專案順利上線至蘋果和各大安卓應用市場。專業的管理體系,精確專案...

跨境電商獨立站怎麼做

獨立站一般是指商家自己搭建的跨境電商 跨境電商獨立站擁有獨立網域名稱,內容 資料 權益私有,脫離第三方電商平台束縛,不僅可以進行多個渠道 多個方式的網路 和推廣,並且推廣所帶來的流量 品牌知名度等都屬於商家自己 做跨境電商的朋友受平台之苦久矣!想必大家對亞馬遜等平台封號事件和國內賣家內卷行為的深惡痛...