DataWale組隊學習經歷分享

2021-10-08 09:21:10 字數 374 閱讀 3408

1. 賽題理解 :

零基礎入門nlp - 新聞文字分類:

本文共有13個類別,是個多分類問題;

2. 資料讀取與eda:

進行了簡單的資料探索,能夠發現一些關聯性;在想,是否能夠進行更加細節的分析,挖掘深入的特徵;

3.簡單的文字分類

接觸了tf-idf對於詞的表示方法,以及n-grams;這些都是簡單的處理文字的方法

4.使用簡單的深度學習模型進行訓練 - fasttext

anaconda安裝fasttext比較麻煩,但是可以直接安裝gensim,裡面有fasttext的包;

from gensim.models import fasttext

5.使用word2vec進行詞向量訓練

Datawhale組隊學習 Task01 分治

分治在倒排索引 pagerank 計算 網頁分析等搜尋引擎相關的技術中都有大量的應用。分治演算法的主要思想是將原問題遞迴地分成若干個子問題,直到子問題滿足邊界條件,停止遞迴。將子問題逐個擊破 一般是同種方法 將已經解決的子問題合併,最後,演算法會層層合併得到原問題的答案。def divide con...

組隊學習 DCIC2021演算法分析題學習分享

資料預處理 方法一 基於geohash的停車點匹配潮汐點計算 方法二 基於距離匹配計算潮汐點 本次主要針對學習baseline過程中未曾想到的方法與 技巧進行分享 通過共享單車訂單資料與共享單車停車點資料進行匹配,可以獲得不同時間共享單車在何處開啟與關閉的資料。針對二者計算差值可以獲得不同停車點的潮...

Leetcode組隊學習任務

設計乙個支援 push,pop,top 操作,並能在常數時間內檢索到最小元素的棧。push x 將元素 x 推入棧中。pop 刪除棧頂的元素。top 獲取棧頂元素。getmin 檢索棧中的最小元素 class minstack def init self initialize your data s...