NLP 文字分類思路

2022-08-24 12:57:13 字數 1269 閱讀 8493

github部落格傳送門

csdn部落格傳送門

載入詞嵌入矩陣(一般情況為字典形式 )

載入任務資料(一般情況為字串形式 "我喜歡程式設計" 或者 "i love play computer")

對載入的所有任務資料求乙個最大字串長度 以便後面將所有資料填充至一樣的長度

將每條資料以每個樣本的形式存入列表 ["我在家", "他在打球", "i am tired"...]

對每個樣本去停用詞 例如:(去停用詞前["他", "在", "美麗", "的", "草坪", "下", "曬", "太陽"]) (去停用詞後["他", "在", "草坪", "曬", "太陽"]) #僅供參考不一定正確

對所有的詞彙彙總 使用tf-idf(當然還有其它的方法不止tf-idf這一種,tf-idf具體原理自己google)對詞彙加權等等一堆東西 算出前10000(根據任務自己設定詞嵌入的大小) 一般為字典形式

同時將資料轉換為 詞 對應7步驟字典中的序號 例如(["我", "在", "家"]) 轉換後可能為([14, 383, 2015])

8步驟轉換後的資料 padding 為3步驟最大長度以便神經網路收到同一長度(padding 0)

用第1步驟得到的詞嵌入 和 第7步驟得到的彙總詞彙的索引取出乙個嵌入矩陣隨後對所有的訓練資料進行編碼 形如

最後將10步驟的詞嵌入矩陣載入到神經網路的第一層(並設定為不訓練)對所有資料進行編碼.

接著就可以使用神經網路對資料進行訓練並**啦.

print_r('點個贊吧');

var_dump('點個贊吧');

nslog(@"點個贊吧!")

system.out.println("點個贊吧!");

console.log("點個贊吧!");

print("點個贊吧!");

printf("點個贊吧!\n");

cout << "點個贊吧!" << endl;

console.writeline("點個贊吧!");

fmt.println("點個贊吧!")

response.write("點個贊吧");

alert(』點個贊吧』)

NLP(五)文字分類

1 svm 2 樸素貝葉斯 3 lda 本文給出 和使用中的效果 1 svm svm做文字分類準確率並不高,而且耗時,訓練集少時推薦邏輯回歸 from sklearn.feature extraction.text import tfidfvectorizer from sklearn.svm im...

NLP 中文文字分類 詳細

實現如下customprocessor class customprocessor dataprocessor def get train examples self,data dir return self.create examples self.read tsv os.path.join da...

2020 12 13 NLP 中文短文本分類

nlp 中文短文本分類 wordcloud 製作詞云 import jieba import pandas as pd import numpy as np from scipy.misc import imread from wordcloud import wordcloud,imagecolo...