文字的乙個小例子

2021-08-21 07:23:17 字數 1385 閱讀 7898

###############################

#自然語言文字預處理

###############################

# 導入庫

import pandas as pd

import jieba # 結巴分詞

from sklearn.feature_extraction.text import tfidfvectorizer # 基於tf-idf的詞頻轉向量庫

# 分詞函式

def jieba_cut(string):

word_list = # 建立空列表用於儲存分詞結果

seg_list = jieba.cut(string) # 精確模式分詞

for word in seg_list: # 迴圈讀取每個分詞

return word_list

# 讀取自然語言檔案

fn = open('text.txt',encoding='utf-8')

string_lines = fn.readlines()

fn.close()

# 中文分詞

seg_list = # 建立空列表,用於儲存所有分詞結果

for string_line in string_lines: # 讀取每行資料

each_list = jieba_cut(string_line) # 返回每行的分詞結果

for i in range(5): # 列印輸出第一行的前5條資料

print (seg_list[1][i])

# word to vector

stop_words = [u'\n', u'/', u'「', u'」', u'的', u',', u'和', u'是', u'隨著', u'對於', u'對', u'等', u'能', u'都', u'。', u'、',

u'中', u'與', u'在', u'其'] # 自定義要去除的無用詞

vectorizer = tfidfvectorizer(stop_words=stop_words, tokenizer=jieba_cut) # 建立詞向量模型

x = vectorizer.fit_transform(string_lines) # 將文字資料轉換為向量空間模型

vector = vectorizer.get_feature_names() # 獲得詞向量

vector_value = x.toarray() # 獲得詞向量值

vector_pd = pd.dataframe(vector_value, columns=vector) # 建立用於展示的資料框

print (vector_pd.head(1)) # 列印輸出第一條資料

ViewPager的乙個小例子

早就聽說有這個viewpager控制項,專案要中使用的也多,viewpager也是更新到了viewpager2。但是我一直沒有使用過,現在記錄一下簡單的使用方法。它的使用和recycleview listview的使用大同小異。也需要介面卡和監聽事件。相信用過這些控制項的同學一定不陌生。上 acti...

while迴圈的乙個小例子

我國最高山峰是珠穆朗瑪峰 8848m,我現在有一張足夠大的紙張,厚度為 0.01m。請問,我摺疊多少次,就可以保證厚度不低於珠穆朗瑪峰的高度?分析 1 統計思想 定義統計變數 2 最高山峰是珠穆朗瑪峰 8848m 最終厚度 有一張足夠大的紙張,厚度為 0.01m 初始厚度 3 厚度不低於珠穆朗瑪峰的...

minixml使用的乙個小例子

xml檔案 version 2.0 width 1920 height 1080 width 1920 height 1080 textex 命令按鈕1 textex 電器1 textex 電器2 commandbutton1 textex 命令按鈕2 textex 命令按鈕3 page width...