NLP入門 新聞文字分類Task5

2021-10-08 16:26:58 字數 748 閱讀 6174

textcnn

textrnn

上乙個task4利用了fasttext,但不是最優的思路方法,因此本章將繼續學習基於深度學習的文字分類。

基於詞的上下文環境進行**,對於每一條輸入文字,選取一定大小的視窗的上下文和乙個中心詞,並基於這個中心詞去**視窗內其他詞出現的概率。

通過單詞和上下文彼此**

**基礎:yoon kim在**(2014 emnlp) convolutional neural networks for sentence classification提出textcnn。textcnn利用cnn(卷積神經網路)進行文字特徵抽取,不同大小的卷積核分別抽取n-gram特徵,卷積計算出的特徵圖經過maxpooling保留最大的特徵值,然後將拼接成乙個向量作為文字的表示。

詳細原理如下:

textrnn利用rnn(迴圈神經網路)進行文字特徵抽取,由於文字本身是一種序列,而lstm天然適合建模序列資料。textrnn將句子中每個詞的詞向量依次輸入到雙向雙層lstm,分別將兩個方向最後乙個有效位置的隱藏層拼接成乙個向量作為文字的表示。

零基礎入門NLP 新聞文字分類

1 transformer transformer是一種新的編碼器 解碼器架構,它僅使用注意力機制而不是rnn來編碼每個位置,並關聯有關其自身的輸入和輸出的兩個遠端單詞,然後可以並行化處理,因而加快訓練。2 attention 模仿人類視覺注意力機制,學習出乙個對影象特徵的權重分布,再把這個權重分布...

Task1 零基礎入門NLP之新聞文字分類

天池對應比賽 賽題以自然語言處理為背景,要求選手對新聞文字進行分類,這是乙個典型的字元識別問題,通過這道賽題可以引導我們走入自然語言處理的世界,帶我們接觸nlp的預處理 模型構建和模型訓練等知識點。對賽題進行初步的認識和了解 賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測...

零基礎入門NLP 新聞文字分類 方案整理

零基礎入門nlp 新聞文字分模擬賽方案分享 nano rank1 主要思路 零基礎入門nlp 新聞文字分模擬賽 top2參賽經驗 原始碼分享 主要思路 嘗試了nlp文字分類任務中常用的思路,並且給出了實驗中的一些總結,給我比較大的啟發的地方是 rnn網路,最大的亮點就是seq len使用了2000個...