如何處理乙個文字資料集

2021-09-24 22:47:49 字數 785 閱讀 1651

目前有大量的資料集,但是不一定每個資料集對於你來說是一上手就可以使用的。而資料預處理對於乙個文字分類的結果來說,是非常重要的。目前我記錄一下我的資料預處理的一些方式:

文字資料集有許多的不同的語種,就目前而言,中文,英文這些相對使用量大的語言,那麼這樣就分為大語種和小語種有不同的處理方式了。

大語種的話現在已經有許多停用詞表,像類似的套路就是:

1 中文先分詞,分詞後使用停用詞表將部分無效詞語去除。

2 英文無需分詞,直接使用停用詞表將無效詞語去除。

小語種由於沒有停用詞表,則去除裡面的一些標點符號和其他一些亂碼字元,當然識別出語種,也可以將停用詞表翻譯過來用,這算是乙個方法。

去除亂碼字元的**如下:

def predata(x):

a =

for i in range(x.shape[0]):

string = re.sub('[^a-za-z]', ' ', x[i]).lower()

string = re.sub(r"\s", " ", string)

再就是如果沒有分標籤的話,可以用下面的方法分出**:

def make_label(df):
當然,如果說你需要使用詞向量這一部分,需要根據不同的詞向量庫輸入,分詞成為不同的結果。

word2vec使用的是[「a」,』'b",「c」]這種形式的輸入,如果不是這種形式,可以使用nltk的word_tokenize(sen)函式將句子先轉換一下。

大概的思路就是這樣的~以後如果有別的再補充吧

Nginx如何處理乙個請求

基於名字的虛擬主機 nginx首先選定由哪乙個虛擬主機來處理請求。讓我們從乙個簡單的配置 其中全部3個虛擬主機都在埠 80上監聽 開始 server server server 在這個配置中,nginx僅僅檢查請求的 host 頭以決定該請求應由哪個虛擬主機來處理。如果host頭沒有匹配任意乙個虛擬...

nginx如何處理乙個請求

nginx收到請求時第一步是決定由哪個伺服器來處理。以乙個配置了三個虛擬伺服器的例子為例,三個虛擬伺服器軍監聽80埠。server server server根據以上配置,nginx只對請求的 host 頭域檢查,並根據其值決定將請求路由給哪個伺服器。如果和任何乙個伺服器都不匹配,或者請求不包含乙個...

Nginx如何處理乙個請求

nginx是什麼?nginx是俄羅斯人編寫的十分輕量級的http伺服器,nginx,它的發音為 engine x 是乙個高效能的http和反向 伺服器,同時也是乙個imap pop3 smtp 伺服器 nginx是由俄羅斯人 sysoev為俄羅斯訪問量第二的 rambler.ru站點開發的,它已經在...