NLP學習筆記17 機器學習

2021-10-18 04:16:04 字數 2624 閱讀 1357

本文屬於貪心nlp學習筆記系列。從本節課開始進入機器學習的章節。

之前的兩個分支之一:基於概率的系統(probabilistic),主要是學習出資料與標籤之間的對映關係。

定義:自動從已有的資料裡找出一規律,然後把學到的這些規律應用到對未來資料(future data)的**中,或者在不確定環境下自動地做一些決策。

兩大流派:<1>有監督的(supervised learning,即我們有一些訓練資料,通過訓練資料去構建乙個模型)、無監督的(unsupervised learning) 

<2>生成模型(generative model)、判別模型(discriminative)

實際工作中,最常見的學習還是有監督學習。(現實中年無監督學習效果沒那麼好)

監督學習:訓練集資料報含x(特徵向量),y(標籤label),我們想學出x到y的對應關係f(),

以情感分析為例,下**釋的有監督訓練的模型:

首先,給定乙個語料庫(即訓練資料),該語料庫包含文字(x)及其情感傾向判斷結果(y),通過訓練語料庫,得到函式f,用來進行判別使用者新的輸入的情感傾向

·線性回歸(linear regression)

·邏輯回歸(logistic regression)

·樸素貝葉斯(***** bayes)

·神經網路(neural network)

·svm(support vector machine)

·隨機森林(random forest)

·adaboost

·cnn(convolutional neural network)

目前為止,這些經典演算法聽完還是一堆術語。跟之前不學這個課相比,就是知道屬於監督學習模型。

所給的訓練資料只包含x,不含有y,所以很顯然學不到f(x->y)的過程。

更多的是對資料的分析,通過聚類的方法使資料有個直觀的分析。比如再營銷上。

常用的無監督學習的演算法 unsupervised learning algorithms

·k-means (聚類)

·pca(principal component analysis)  (降維)

·ica(independent component analysis) (降維)

·mf(matrix factorization) 矩陣分解常用再推薦系統

·lsa(latent semantic analysis)

·lda(latent dirichlet allocation)

使用之前,要深入了解演算法的理念是什麼,可能會遇到什麼問題。

生成模型(generative model)和判別模型(discriminative model)

生成模型通過已經訓練好的模型,可以用來生成、**、文字等,例如生成模型會學習貓、狗的特徵,再利用學到的特徵去判斷使用者輸入的是貓或狗的概率p。

生成模型是記住細節,而叛逆別模型是記住區別。

從數學角度來看,生成模型是最大化p(x)或者最大化p(x|y).

而判別模型是,判別模型是最大化

經典流程

資料清洗比較耗費時間,影響後面整體的效果。特徵工程耗時佔比最大,也是模型最重要的部分。如果理想的準確度是100分,那麼特徵工程決定了系統的準確度的上限,例如90分,那麼選擇模型,調節引數,也是只能逼近上限。

近幾年,這個流程不斷優化,變成端到端的流程。由於傳統流程中特徵工程非常重要,然後又很費時間(需要對業務理解,又要有創新思維)。把特徵工程去掉就是端到端的流程。由模型自動完成特徵工程提取。

端到端的模型(end to end learning)

如seq2seq.再影象領域  效果較好,在nlp領域,效果通常不好。

模型構建時的資料劃分

一般將資料分為訓練資料(訓練模型)和測試資料(測試模型)。達到預期就可以上線,否則就得重新搭建。

NLP學習筆記 nlp入門介紹

為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...

NLP學習筆記1 2

開始學習nlp的第乙個模組jieba import nltk setence hello,world token nltk.word tokenize setence list token hello world import jieba 模糊模式 seg list list jieba.cut 2...

NLP學習筆記 一

可瀏覽 從研究現狀來看,自然語言理解和處理的理論體系尚未真正建立,技術方法仍然十分初步,所以對於什麼是nlp沒有乙個標準的定義,此下幾點為本人收集的關於nlp的概念界定 wiki中的定義 自然語言處理 英語 natural language processing,縮寫作 nlp 是人工智慧和語言學領...