《達觀杯》學習第一天(緒論入門)

2021-09-07 02:49:27 字數 2259 閱讀 4658

一、機器學習目的尋找乙個函式:這個函式可以完成的常見功能如圖

step1:定義一系列有一定功能的函式

step2:驗證這一系列函式的 優劣性

step3:尋找乙個最優的函式

(二)、學習課表

(三)報名達觀杯並做一些準備

達觀公司組織的比賽,給好既定 的官方給的資料集,訓練得到機器學習模型,而如何 評判模型的優劣,用的是測試集(每個樣本沒有label資訊),用模型對測試集進行分類,然後把分類好的結果給官方進行評判

1.傳統監督學習演算法(西瓜書的章節有一 一對應)

(對數機率回歸 / 支援向量機 / 樸素貝葉斯  / 決策樹 / 整合學習等)

2.深度學習

(cnn / rnn / attention模型  )

q:提高模型效能

(a)資料預處理

(b)特徵工程 【特徵做的好,質的飛躍,例子:對於乙個人,臉部特徵、身材特徵】

(c)機器學習演算法:

(d)模型整合

(e) 資料增強

報了名,然後提交了結果,**按訓練營的**

print("開始.....................")

import pandas as pd

from sklearn.linear_model import logisticregression

from sklearn.feature_extraction.text import countvectorizer

df_train = pd.read_csv('./train_set.csv')

df_test = pd.read_csv('./test_set.csv')

df_train.drop(columns = ['article','id'],inplace = true)

df_test.drop(columns = ['article'],inplace = true)

vectorizer = countvectorizer(ngram_range = (1,2),min_df = 3,max_df = 0.9,max_features = 100000)

vectorizer.fit(df_train['word_seg'])

x_train = vectorizer.transform(df_train['word_seg'])

x_test = vectorizer.transform(df_test['word_seg'])

y_train = df_train['class'] - 1

lg = logisticregression(c = 4,dual = true)

lg.fit(x_train,y_train)

y_test = lg.predict(x_test)

df_test['class'] = y_test.tolist()

df_test['class'] = df_test['class'] + 1

df_result = df_test.loc[:,['id','class']]

df_result.to_csv('./result.csv',index = false)

print('完成................................')

成功了,明天自己要嘗試讀懂並備註這段**,自己要理解其原理所在。

原因中途彈出的小黑窗手動給關閉了。解除安裝後讓預設要求重灌一次成功啦!

學習第一天

知識是學會的,不是教會的 程式設計 驗證性或體驗性 創造性 學程式設計的4個階段 1.能看懂別人的 除錯別人的 2.能修改別人的 3.能拷貝別人的 做自己的事 4.能自己設計編寫 方法 多讀 做記錄 執行 修改 執行 練習,光說不練假把式 刷oj總結 寫部落格或許是個不錯的選擇 學生和已經工作的程式...

小白入門學習的第一天

第一周先熟悉計算機和linux的基本使用 1.計算機的基本硬體設施組成 2.計算機基礎知識 3.馮諾依曼體系 計算機的五大組成 輸入裝置,輸出裝置,儲存器,運算器,控制器 二進位制演算法 4.unix哲學思想 1.一切都是乙個檔案 包括硬體 2.小型,單一用途的程式 3.鏈結程式,共同完成複雜的任務...

藍橋杯訓練第一天

例題1 輸入乙個三位數,分離出它的百位 十位和個位,反轉後輸出。樣例輸入 127樣例輸出 721分析 首先將三位數讀入變數n裡,然後進行分離。百位 n 100 十位 n 10 10 個位 n 10 解法 include int main 以上是一道簡單的三位數交換位置的題,由此延伸變數交換的三種方法...