百度提前批面試之 資料探勘 負取樣

2021-10-08 05:32:04 字數 425 閱讀 2225

負取樣

什麼是負取樣?

負取樣就是:

自然語言處理領域中,判斷兩個單詞是不是一對上下文詞(context)與目標詞(target),如果是一對,則是正樣本,如果不是一對,則是負樣本。

取樣得到乙個上下文詞和乙個目標詞,生成乙個正樣本(positive example),;生成乙個負樣本(negative example),則是用與正樣本相同的上下文詞,再在字典中隨機選擇乙個單詞,這就是負取樣(negative sampling)。

負取樣的優點:

負取樣這個點引入word2vec非常巧妙,兩個作用:

1.加速了模型計算

2.保證了模型訓練的效果,其一模型每次只需要更新取樣的詞的權重,不用更新所有的權重,那樣會很慢,其二中心詞其實只跟它周圍的詞有關係,位置離著很遠的詞沒有關係,也沒必要同時訓練更新,作者這點非常聰明。

2020百度提前批面試

自我介紹 介紹一下專案 專案中有沒有用正則化方法 batchnorm能不能阻止梯度消失 對什麼機器學習演算法有了解 說一下邏輯回歸 xgboost和gbdt的區別 遍歷二叉樹 計算根號3 給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的u...

百度提前批三面面經

面試職位 運維研發工程師 一面 首先自我介紹,然後問專案經驗,blabla.然後問了1 n中某個數少了,找出來,又問了乙個拓撲排序,最後問了下nginx的事件驅動模組怎麼回事。二面 自我介紹,然後問專案經驗,blabla.從在瀏覽器中輸入www.baidu.com,到出來頁面,可能發生什麼故障,你打...

面試經歷之百度

提前面 這個名字是我瞎起的,我也不知道叫啥,我一直以為這個面試就是一面,但是直到3月份我才知道這次面試只是大資料部想要了解一下我個人的基本情況和水平。面試時間大概是1月初,來的很突然,毫無準備地面試了。自我介紹一下。你的簡歷上寫熟悉stl容器的使用,了解一些的內部實現,能說一下map內插入元素的兩種...