NLP實戰 特徵工程 神經網路

2021-10-05 21:37:09 字數 2104 閱讀 6177

神經網路

類別特徵做count,對於某類中數值型特徵存在區間段劃分的情況也可做count

f1權重調整

將某一樣本的部分特徵做成w2v,增加聚類效果,強化近似類別之間的差異

初賽資料跟複賽資料concat(類別特徵一樣且可用)

軌跡特徵做diff 差值特徵強時序性

閾值優化 蒙特卡洛搜尋 scipy.optimize

簡介:

對於某類別值較少的情況,可以採取其他類別加權求值;對於某常規類,可採取劃分組,例如分5分,第五份的資料值由前四份的資料均值提供,以此類推其他方法。

對應pandas中的df.groupby([a,b])[c].agg(fun)函式。 groupby函式可以應用於任何其他變數,在某種程度上捕捉了多變數之間的交叉效應。func可以是多種函式,如mean,std,kurtosis,min,max等等。例子檢視海洋大賽baseline。

可以對殘差進行以上操作。

pip包:category encoders

one hot / ordinal encoder / count encoder

為什麼要對連續變數離散化:

常見的離散化方法:

常見的資料轉換方法

基於ecdf 的方法

box-cox變換和yeo-johnson transform 針對y值

概述缺失值的填充往往可以根據業務決定,其他可以採用平均值、中位數或者眾數進行填充;也可以單獨構建模型進行**

解決辦法

初始化的重要性

常見初始化方法

學習率空控制由梯度更新方向時,在此方向上最優的步長。

神經網路煉丹最重要的引數,沒有之一。

理論來說,學習率過小 -> 收斂過慢,學習率過大 -> 錯過區域性最優。

實際上可能,學習率過小 -> 不收斂,學習率過大 -> 不收斂。

學習率設定

分層學習率

optimizer = optim.adam([,

], lr =2e-

2)

warm-up理論上來說,小學習率有助於模型訓練穩定

實際對隨機初始化的網路而言,開始過小的學習率會導致訓練不穩定

一般採取warm-up:學習率從小到大再到小

學習率衰減

梯度下降法需要指定乙個學習率來控制權重更新的步長,一般在模型訓練初期,使用較大的學習率可以快速的使網路收斂,然後逐漸減小學習率,學習到最優解。

半精度訓練

分布式訓練

梯度累積

從何處挖掘圖關係

處理圖關係的兩種方法

圖嵌入方法分類

**圖嵌入方法舉例:prone **

圖網路的決策因素

stack

將node或者edge對映為乙個向量

​ 注意考慮的是圖關係,而非其他性質

​ 速度較快,對現有模型起補充作用

處理圖關係的兩種方法圖嵌入方法分類**圖嵌入方法舉例:prone **

圖網路的決策因素

stack

meta-des

NLP神經網路

nlp natural language processing 是ai的乙個分支,當前,使用最廣泛的主要神經網路有 迴圈神經網路 卷積神經網路 遞迴神經網路 rnns是處理nlp中普遍存在的動態輸入序列的乙個技術方案。cnns是計算機視覺領域的一項技術,現在也開始應用於語言。文字的cnns只在兩個維...

NLP系列 6 神經網路基礎

前饋神經網路是一種最簡單的神經網路,各神經元分層排列。每個神經元只與前一層的神經元相連。接收前一層的輸出,並輸出給下一層 各層間沒有反饋。神經網路的第一層。它接收輸入訊號 值 並將其傳遞至下一層,但不對輸入值執行任何運算。它沒有自己的權重值和偏置值。隱藏層的神經元 節點 通過不同方式轉換輸入資料。乙...

神經網路數學基礎 卷積神經網路 部分實戰訓練

神經網路的數學基礎 1.矩陣線性變換 起到尺度和旋轉上的變化,w x與公升降維 放大縮小相關,b與平移相關 與彎曲相關 2.矩陣的秩 秩越低,資料分布越容易 捉,相關性大 奇異值 低秩近似 保留決定資料分布最主要的模式 方向 3.概率 概率分布 似然函式 對數似然函式 最大對數似然 4.策略設計 機...