LinkedIn透過機器學習打造出 求職推薦系統

2021-09-24 04:26:53 字數 2980 閱讀 6943

linkedin 是迄今為止市面上極受歡迎的招聘平台之一。來自世界各地的招聘者每天會從 linkedin 上網羅挑選適合他們招人崗位的候選人。像 linkedin recruiter 這款產品,就可以說明招聘者建立並管理乙個人才庫,最大限度地提高徵人成功率。這款產品的高效效能是通過一系列極其複雜的搜尋和推薦演算法來實現的,這些演算法利用了最先進的機器學習架構,也考慮了很多實際因素。除了在構建乙個世界上最有價值的資料集之外,linkedin 一直在通過各種實驗來突破機器學習技術,希望把人工智慧的一流體驗帶入 linkedin 產品中。

linkedin 以三大標準建立搜尋推薦模型

招聘產品的推薦功能對 linkedin 的機器學習技術提出了很大的挑戰。除了處理龐大且不斷增長的資料集,招聘產品還需要處理很多隨機且複雜的查詢和篩選需求,並提供與之非常相關的結果。搜尋環境是如此多變,以至於很難將這個問題簡單轉換為機器學習的模型來解決。以招聘產品為例,linkedin 使用了乙個包含三個因素的標準來描述搜尋推薦模型需要實現的目標。

2.智慧型查詢: 搜尋結果不僅應該返回匹配特定條件的候選人,還應該返回相近條件的候選人。例如,搜尋機器學習應該返回在技能集中列出資料科學的候選人。

3.個性化: 通常,為一家公司尋找到理想候選人考慮的因素並不在搜尋條件裡。還有些時候,招聘人員也不確定使用什麼標準。個性化搜尋結果是任何成功的搜尋和推薦體驗的關鍵因素。

linkedin 招聘產品搜尋和推薦體驗的第四個關鍵標準不像前三個標準那麼明顯,它關注的是簡單的衡量指標 。為了簡化推薦體驗,linkedin 對一系列關鍵指標進行了建模,這些指標是成功招聘的有效指標。例如,站內信閱讀數量似乎是判斷搜尋和推薦過程有效性的乙個明確指標。從這個角度來看,linkedin 將這些資料作為衡量其機器學習演算法優化程度的關鍵指標。

線性回歸上加入梯度增強判定樹,建立穩固結構

linkedin recruiter 最初的搜尋和推薦經驗是基於線性回歸模型。雖然線性回歸演算法很容易解釋和除錯,但它們在 linkedin 等大型資料集中找不到非線性關聯。為了改善這種體驗,linkedin 決定使用梯度增強判定樹(gbdt)來將不同的模型組合成更複雜的樹結構。除了更大的假設空間外,gbdt 還具有其他一些優點,如能夠很好地處理特徵共線性、處理不同範圍的特徵以及缺少特徵值等等。與線性回歸相比,gbdt 本身提供了一些切實的改進,但也未能解決搜尋體驗的一些關鍵挑戰。有乙個著名的例子,輸入搜尋牙醫的請求,卻返回了具有軟體工程頭銜的候選人,因為搜尋模型優先考慮尋找工作的候選人。為了改善這一點,linkedin 新增了一系列基於成對優化技術的上下文感知功能。從本質上講,該方法擴充套件了 gbdt 的兩兩排序目標,以比較相同背景下的候選人,並評估哪個候選人更適合當前的情況。

linkedin recuriter 瓶頸:個性化需求

linkedin recuriter 的另乙個挑戰是,如何將應聘者與「資料科學家」和「機器學習工程師」等相關頭銜匹配起來。僅使用 gbdt 很難建立這種相關性。為了解決這個問題,linkedin 引入了基於網路嵌入語義相似特性的代表學習技術。在這個模型中,搜尋結果將根據查詢的相關性由具有類似職位的候選人補充。

可以說,linkedin recruiter 面對的最難解決的挑戰是個性化。 從概念上講,個性化可以分為兩大類。實體級個性化側重於在招聘過程中考慮進去不同參與個體的偏好,如招聘人員、合同、公司和候選人。為了應對這一挑戰,linkedin 採用了一種著名的統計方法,稱為廣義線性混合(glmix),它使用推理來改進**問題的結果。具體來說,linkedin 的招聘人員使用了一種架構,它結合了學習排名功能、樹互動功能和 gbdt 模型評分。將學習到等級的特徵作為預先訓練的 gbdt 模型的輸入,該模型生成編碼為樹互動特徵的樹集合和每個資料點的 gbdt 模型得分。然後,利用原始的學習排序特性及其以樹互動特性和 gbdt 模型評分形式的非線性轉換,廣義線性模型可以實現招聘級和合同級的個性化。

架構:先海選人才,再進行候選人分序

linkedin recruiter 的搜尋和推薦體驗基於乙個名為 galene 的專有專案,該專案建立在 lucene 搜尋堆疊之上。上一節描述的機器學習模型有助於為搜尋過程中使用的不同實體構建索引。

招聘人員搜尋體驗的排名模型基於乙個具有兩個基本層的體系結構。

l1: 挖掘人才庫,並對候選人進行評分/排名。在這一層中,候選檢索和排序以分布式方式完成。

在該體系結構中,galene **系統將搜尋查詢請求分散到多個搜尋索引分割槽。每個分割槽檢索匹配的文件,並將機器學習模型應用於檢索到的候選文件。每個分割槽對候選項的子集進行排序,然後**收集排序後的候選項並將它們返回給聯邦伺服器。連線使用附加的排序功能對檢索到的候選項進行進一步排序,並將結果交付給應用程式。linkedin 是大規模構建機器學習系統的公司之一。linkedin recruiter 使用的推薦和搜尋技術的想法與不同行業的許多類似系統有著驚人的相關性。linkedin 工程團隊發布了乙份詳細的幻燈片來展示他們是如何建構世界級推薦系統的。

從 LinkedIn 的資料處理機制學習資料架構

下面是一些資料用例,可能我們在瀏覽linkedin網頁時都已經看到過了。更新後的個人資料後幾乎可以實時的出現在招聘搜尋頁面 更新後的個人資料後幾乎可以實時的出現在人脈網頁 分享乙個更新,可以近實時的出現在新聞feed頁面 令人震驚的是,如果我們使用較好的寬頻,這些頁面可以在數毫秒內完成載入 讓我們向...

機器學習 初識機器學習

1.什麼是機器學習?對於機器學習到現在都還沒有統一的定義,但是,通過乙個例子和較權威的定義來理解機器學習,最後附上我個人對機器學習的理解 2.監督學習 1 監督學習基本思想 我們資料集中的每個樣本都有相應的 正確答案 即每個樣本都是真實值,再根據這些樣本作出 舉乙個房價預售的例子來說明 eg 下面圖...

python手工打碼 Python學習 打碼平台

打碼平台介紹 優點 1.便宜 2.使用簡單 3.識別率高 平台介紹 極驗驗證碼智慧型識別輔助 超級鷹 打碼兔 若快打碼 等等 流程圖 使用者賬號用於登入,充值,平台是收費的 1元 1000分 開發者 新增我的軟體,獲取通訊秘鑰 檢視驗證碼型別 題分 使用者 充值 12306的驗證碼demoimpor...