python提取關鍵詞

2021-10-09 06:07:17 字數 1321 閱讀 2715

value=34895348587575

value=34895348587575

abababbaba

value=1.290934

# -*- coding: utf-8 -*-

"""created on sun aug 16 20:57:31 2020

@author: jwy

"""#coding=utf-8

#version:python 3.6.0

#tools:pycharm 2017.3.2

_date_ = '2019/04/17 22:00'

_author_ = 'cxj'

import re

import csv

name = "hello"

#這裡自己輸入檔案名字,例如我們要處理ab.txt檔案,此處name = "ab", 該寫法需要將txt檔案和該指令碼放在同一目錄下

txtname = name+".txt"

csvname = name+".csv"

fp = open(txtname, "rb")#開啟txt文字

a = fp.read()#讀取xt文字

pattern = 'value=\d+\.\d+|\d+'

for match in re.findall(pattern,  a.decode('utf-8')):

print('found '.format(match))

print('found '.format(match))

result=re.findall(pattern,  a.decode('utf-8'))

print(result)

#result = re.findall('.*value="(.*)"/.*', a.decode('utf-8'))#正則匹配

list1 = #該列表用於臨時儲存字串

for i in result:#匹配到的內容逐條提取

if i != '':#過濾空白字元

print(i)#看匹配到的內容

#下面就是寫入csv檔案的功能了,newline=''可以避免空行問題

with open(csvname, 'a', newline='') as csvfile:

writer = csv.writer(csvfile)

writer.writerow(list1)

list1.pop()#寫入完成要將列表中的字串刪除

關鍵詞提取

隱含主題模型優缺點 隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體 如人名 地名 機構名和產品名 的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差 典型的聚類演算法 層次聚類 hierarchical...

關鍵詞提取

encoding utf 8 import jieba.analyse as analyse lines 1 open nba.txt encoding utf 8 read print join analyse.extract tags lines 1,topk 20,allowpos 時間 建議...

關鍵詞提取

import jieba.analyse index 2400 print df news content index str.join sequence sequence中用str連線 content s str join content s index print join jieba.anal...