達觀杯文字處理(三) 調優與融合

2021-09-18 07:03:33 字數 787 閱讀 7366

【task4 模型優化】:(2天)

1)進一步通過網格搜尋法對3個模型進行調優(用5000條資料,調參時採用五折交叉驗證的方式),並進行模型評估,展示**的執行結果。(可以嘗試使用其他模型)

2)模型融合,模型融合方式任意,並結合之前的任務給出你的最優結果。

例如stacking融合,用你目前評分最高的模型作為基準模型,和其他模型進行stacking融合,得到最終模型及評分結果。

結果展示如下表:

grid search:一種調參手段;窮舉搜尋:在所有候選的引數選擇中,通過迴圈遍歷,嘗試每一種可能性,表現最好的引數就是最終的結果。其原理就像是在陣列裡找最大值。(為什麼叫網格搜尋?以有兩個引數的模型為例,引數a有3種可能,引數b有4種可能,把所有可能性列出來,可以表示成乙個3*4的**,其中每個cell就是乙個網格,迴圈過程就像是在每個網格裡遍歷、搜尋,所以叫grid search)

gridsearchcv & cross_val_score 思考

gridsearchcv(網格搜尋)用簡答的話來說就是你手動的給出乙個模型中你想要改動的所用的引數,程式自動的幫你使用窮舉法來將所用的引數都執行一遍。

cross_val_score 一般用於獲取每折的交叉驗證的得分,然後根據這個得分為模型選擇合適的超引數,通常需要編寫迴圈手動完成交叉驗證過程;

gridsearchcv 除了自行完成叉驗證外,還返回了最優的超引數及對應的最優模型

code_模型調參

參考:--------------------- 

參考鏈結及學習資料:

datawhale-達觀杯nlp覆盤 

達觀杯文字處理任務

達觀杯文字處理任務 達觀杯文字處理小demo如下圖,訓練資料與測試資料有2g多,在pycharm裡執行demo時一直報錯process finished with exit code 1073740940 0xc0000374 解決辦法 配置檔案 邏輯回歸 from sklearn.linear m...

文字處理與統計

ls grep hello 列印出含有單詞hello的所有行 grep like 檔案路徑 列印出乙個檔案含有單詞like的所有行 引數 c 計算找到 搜尋字串 的次數 n 順便輸出行號wc text.txt 統計乙個檔案的行數 字數 位元組數 wc l text.txt 只統計行數 ll wc l...

SHELL與文字處理

一 bash基礎特性 1 history export histsize nom histfile nash history hisfilesize nom 呼叫歷史命令中的一次命令 string 字元 2 tab 命令 路徑補全 3 加目錄 命令展開行 4 alias 別名 nualias 取消別...