舉兩個栗子 如何正確建立個人的機器學習專案集

2021-09-10 13:32:55 字數 2294 閱讀 7869

面試機器學習方面的工作時,在簡歷的個人專案那塊,你會寫什麼?建模?做機器學習專案?專案資料從哪兒來?在 sharpestminds 創始人 edouard harris 介紹的兩個成功例子中,人家是從基礎的收集資料開始一步步做專案的:目標明確,做到極致。
我是一名物理學家,在 yc startup 工作。我們的任務是幫應屆生找到自己的第乙份機器學習工作。

要找到第乙份機器學習工作,你要做的一件事就是建立自己的機器學習專案集(portfolio)。現在,我來告訴你答案。

你可能會奇怪為什麼這很重要,那是因為招聘經理通常會通過你的履歷來了解你,如果你沒有履歷,個人專案就是最接近的替代品。

因為職業原因,我見過數百份個人專案的案例,有做得極好的,也有做得極差的。我將向你展示兩個極好的案例。

全力以赴型

接下來要說的是一件真實的故事,只不過隱私起見我改了主人公的名字。

公司 x 使用 ai 提醒雜貨店何時該訂購新的庫存。我們這邊有個學生——ron,很想去 x 公司工作,所以他建立了個人專案,該專案完全是針對去該公司面試用的。

我們通常不建議這樣對著一家公司全力以赴做準備。這有點冒險。不過,像 ron 這樣真的非常想去這家公司就另當別論了。

紅色邊框標出了缺失項。

ron 剛開始把手機貼到購物車上。然後,他推著購物車在過道來回走動,同時用相機記錄。他在不同的雜貨店做了 10 到 12 次。

回到家後,ron 開始建立乙個機器學習模型。他的模型發現了雜貨店貨架上的空缺點:貨架上缺少玉公尺片(或其他東西)的位置。

ron 在 github 上實時建立了他的模型,完全公開。每天,他都會改進他的 repo(提高準確率,並在他的 repo 的 readme 中記錄專案變化。)

當 x 公司意識到 ron 正在這樣做時,x 公司很感興趣,而且不止是感興趣,事實上,x 公司有點緊張。他們為什麼會緊張?因為 ron 在不知不覺中,在幾天內複製了他們專有技術堆疊的一部分。

當然,ron 所做的遠遠不夠完美:x 公司已經投入了比 ron 多幾個數量級的資源來解決這個問題。但由於太相似,他們很快就叫 ron 將他的 repo 私有化。

x 公司的技術在同行業中名列前茅。儘管如此,在 4 天內,ron 的專案得到了 x 公司首席執行官的直接個人關注。

飛行員專案

以下是另乙個真實故事:

alex 是一名歷史專業大學生,主修俄語(真的),同時他對機器學習感興趣。更為不同尋常的是,儘管他從未編寫過 python **,但他還是決定學習它。

這是 alex 在幾個月中所做的事情:

alex 的 g-force 誘導失去意識探測器的演示。

alex 為影象構建了乙個資料管道,可以將飛行員從駕駛艙背景中剪裁出來,使他的分類器更容易專注於飛行員。最後,他建立了他的意識喪失分類器。

在他做所有這些事情的同時,alex 也在社交活動中向招聘經理展示他的專案快照。每當他拿出他的專案並在手機上展示時,他們會問他是如何做到的,他如何建造管道,以及如何收集資料。但他們從來沒有詢問他的模型準確率(低於 50%)。

當然,alex 也計畫提高其準確率,但在動手之前就被錄用了。結果證明,公司更看重他專案的視覺效果以及他在資料收集過程中表現出的瘋狂與智慧型,而不是他的模型的準確率。

他們之間的共同點

ron 和 alex 為什麼如此成功?因為他們做對了以下四件事:

他們沒有在建模上浪費太多精力。我知道這聽起來很奇怪,但對於今天的很多用例來說,建模是乙個已經解決的問題。在實際工作中,除非你做的是最前沿的研究,否則你的時間 80%~90% 都會花在清洗資料上。你的個人專案又怎能例外?

他們將做出的東西視覺化。所謂面試,並不是說由一位無所不知的裁判對你的能力做出客觀的評估,而是將你自己推銷給另乙個人。人是視覺動物。如果你掏出手機向面試官展示你的作品,那麼你要確保自己做的東西看起來有趣,這點非常值得。

ron 和 alex 的所作所為可能看起來太誇張,但實際上,這和你在真正的工作中要做的事差不多。這就是要點:當你沒有做某事的工作經驗時,招聘經理會看你做過的和某事相類似的經歷。

幸運的是,這種程度的專案你只要做一兩次就好——ron 和 alex 就在所有的面試中重複使用之前準備的專案。

因此,如果用一句話來概括偉大 ml 專案的秘密的話,那就是:用乙個有趣的資料集來構建乙個專案,這個資料集需要很大的努力來收集,並且盡可能地在視覺上有影響力。

舉兩個栗子,理解C語言指標

為什麼要有指標?我們隔壁的隔壁宿舍最近經營起了零食店 我 來5包衛龍大麵筋,送到413!老闆 麼麻噠!來咧!假設這棟宿舍樓沒有門牌號 我 來5包衛龍大麵筋,送到 額 一上樓從最左邊往右第13個宿舍!老闆 其實指標就像門牌號一樣 便於定位查詢記憶體中的資料。4gb的記憶體條有2 32個房間存資料,沒有...

如何正確地比較兩個double型別的資料

今天寫 發現乙個很有意思的問題。如下 double sum 0 for i 11213 i 11325 i printf sum f n sum double sum2 66.144421 if sum sum2 else double a 66.144421,b 66.144421 if a b ...

建立DataFrame的兩個途徑

方法一 由反射機制推斷出模式 step 1 引用必要的類。import org.apache.spark.sql.import sqlcontext.implicits.idea中此處匯入應在sqlcontext 建立之後,否則報錯,不知道為什麼。在使用spark shell時,下面這句不是必需的。...