零基礎入門NLP組隊學習 Task3(文字分類)

2021-10-08 12:31:02 字數 1434 閱讀 5409

基於機器學習的文字分類

機器學習是對能通過經驗自動改進的計算機演算法的研究。機器學習通過歷史資料訓練出模型對應於人類對經驗進行歸納的過程,機器學習利用模型對新資料進行**對應於人類利用總結的規律對新問題進行**的過程。

機器學習有很多種分支,對於學習者來說應該優先掌握機器學習演算法的分類,然後再其中一種機器學習演算法進行學習。由於機器學習演算法的分支和細節實在是太多,所以如果你一開始就被細節迷住了眼,你就很難知道全域性是什麼情況的。

如果你是機器學習初學者,你應該知道如下的事情:

1.機器學習能解決一定的問題,但不能奢求機器學習是萬能的;

2.機器學習演算法有很多種,看具體問題需要什麼,再來進行選擇;

3.每種機器學習演算法有一定的偏好,需要具體問題具體分析。

1.one-hot

在機器學習演算法的訓練過程中,假設給定n

nn個樣本,每個樣本有m

mm個特徵,這樣組成了n×m

n×mn×

m的樣本矩陣,然後完成演算法的訓練和**。同樣的在計算機視覺中可以將的畫素看作特徵,每張看作hight×width×3的特徵圖,乙個三維的矩陣來進入計算機進行計算。

但是在自然語言領域,上述方法卻不可行:文字是不定長度的。文字表示成計算機能夠運算的數字或向量的方法一般稱為詞嵌入(word embedding)方法。詞嵌入將不定長的文字轉換到定長的空間內,是文字分類的第一步。

one-hot

這裡的one-hot與資料探勘任務中的操作是一致的,即將每乙個單詞使用乙個離散的向量表示。具體將每個字/詞編碼乙個索引,然後根據索引進行賦值。

但是當變數的類別較多的時候,這種方式會增加向量的維度,令人頭大。

2.bag of words

bag of words(詞袋表示),也稱為count vectors,每個文件的字/詞可以使用其出現次數來進行表示。

直接統計每個字出現的次數進行賦值,可用skleanrn中的countvectorizer實現。

tf-idf 分數由兩部分組成:第一部分是詞語頻率(term frequency),第二部分是逆文件頻率(inverse document frequency)。其中計算語料庫中文件總數除以含有該詞語的文件數量,然後再取對數就是逆文件頻率。

tf(t)= 該詞語在當前文件出現的次數 / 當前文件中詞語的總數

idf(t)= log_e(文件總數 / 出現該詞語的文件總數)

對比不同文字表示演算法的精度,通過本地構建驗證集計算f1得分。

零基礎入門CV賽事 街景字元編碼識別 TASK1

本次新人賽是datawhale與天池聯合發起的零基礎入門系列賽事第二場 零基礎入門cv賽事之街景字元識別 賽題以計算機視覺中字元識別為背景,要求 真實場景下的字元識別,這是乙個典型的字元識別問題 賽題 自google街景影象中的門牌號資料集 the street view house numbers...

零基礎入門NLP 新聞文字分類

1 transformer transformer是一種新的編碼器 解碼器架構,它僅使用注意力機制而不是rnn來編碼每個位置,並關聯有關其自身的輸入和輸出的兩個遠端單詞,然後可以並行化處理,因而加快訓練。2 attention 模仿人類視覺注意力機制,學習出乙個對影象特徵的權重分布,再把這個權重分布...

零基礎入門學習Python

課程介紹 前半部分主要講解python3的語法特性,後半部分著重講解python3在爬蟲 tkinter pygame遊戲開發等例項上的應用。整個系列共16個章節,前邊13個章節從乙個小遊戲引入python,逐步介紹python的語法以及語言特色。最後3個章節為案例的演示,是前邊內容的總結和提高。課...