表示法 資料清理

2022-03-31 05:13:22 字數 2332 閱讀 4066

蘋果樹結出的果子有品相上乘的,也有蟲蛀壞果。而高階便利店**的蘋果是 100% 完美的水果。從果園到水果店之間,專門有人花費大量時間將壞蘋果剔除或給可以挽救的蘋果塗上一層薄薄的蠟。作為一名機器學習工程師,您將花費大量的時間挑出壞樣本並加工可以挽救的樣本。即使是非常少量的「壞蘋果」也會破壞掉乙個大規模資料集。

縮放特增值
縮放是指將浮點特徵值從自然範圍(例如 100 到 900)轉換為標準範圍(例如 0 到 1 或 -1 到 +1)。如果某個特徵集只包含乙個特徵,則縮放可以提供的實際好處微乎其微或根本沒有。不過,如果特徵集包含多個特徵,則縮放特徵可以帶來以下優勢:

您不需要對每個浮點特徵進行完全相同的縮放。即使特徵 a 的範圍是 -1 到 +1,同時特徵 b 的範圍是 -3 到 +3,也不會產生什麼惡劣的影響。不過,如果特徵 b 的範圍是 5000 到 100000,您的模型會出現糟糕的響應。

處理極端離群值
下面的曲線圖表示的是加利福尼亞州住房資料集中稱為 roomsperperson 的特徵。roomsperperson 值的計算方法是相應地區的房間總數除以相應地區的人口總數。該曲線圖顯示,在加利福尼亞州的絕大部分地區,人均房間數為 1 到 2 間。不過,請看一下 x 軸。

如何最大限度降低這些極端離群值的影響?一種方法是對每個值取對數:

對數縮放可稍稍緩解這種影響,但仍然存在離群值這個大尾巴。我們來採用另一種方法。如果我們只是簡單地將 roomsperperson 的最大值「限制」為某個任意值(比如 4.0),會發生什麼情況呢?

將特徵值限制到 4.0 並不意味著我們會忽略所有大於 4.0 的值。而是說,所有大於 4.0 的值都將變成 4.0。這就解釋了 4.0 處的那個有趣的小峰值。儘管存在這個小峰值,但是縮放後的特徵集現在依然比原始資料有用。

分箱
下面的曲線圖顯示了加利福尼亞州不同緯度的房屋相對普及率。注意集群 - 洛杉磯大致在緯度 34 處,舊金山大致在緯度 38 處。

為了將緯度變為一項實用的**指標,我們對緯度「分箱」,如下圖所示:

我們現在擁有 11 個不同的布林值特徵(latitudebin1、latitudebin2、…、latitudebin11),而不是乙個浮點特徵。擁有 11 個不同的特徵有點不方便,因此我們將它們統一成乙個 11 元素向量。這樣做之後,我們可以將緯度 37.4 表示為:

[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]
分箱之後,我們的模型現在可以為每個緯度學習完全不同的權重。

清查

一旦檢測到存在這些問題,您通常需要將相應樣本從資料集中移除,從而「修正」不良樣本。要檢測遺漏值或重複樣本,您可以編寫乙個簡單的程式。檢測不良特徵值或標籤可能會比較棘手。

除了檢測各個不良樣本之外,您還必須檢測集合中的不良資料。直方圖是一種用於視覺化集合中資料的很好機制。此外,收集如下統計資訊也會有所幫助:

考慮生成離散特徵的最常見值列表。例如,country:uk 的樣本數是否符合您的預期?language:jp 是否真的應該作為您資料集中的最常用語言?

了解資料
遵循以下規則:

像處理任何任務關鍵型**一樣謹慎處理您的資料。良好的機器學習依賴於良好的資料

引用

表示 (representation):清理資料

清理資料 資料預處理之「資料清理」

由於當今資料的數量龐大且來自於各種不同型別的 因此出現資料異常的可能性不斷增加。鑑於高質量資料可生成更好的模型和 資料預處理的重要性與日俱增,並且已經成為資料科學 機器學習 ai 管道中的基本步驟。在本文中,我們將 資料處理需求,並討論用於完成此流程中每個步驟的不同方法。在資料收集過程中,存在三個影...

演算法(資料結構)

空間不夠儲存 給40億個不重複的unsigned int的整數,沒排過序的,然後再給乙個數,如何快速判斷這個數是否在那40億個數當中 40億個數空間儲存的問題 利用對映 分析 unsigned 範圍是2 32 40億大約大約4g個數不到,常規方法肯定是不行的 我們你可以利用 伴隨陣列 那種思想利用記...

新詞發現方法資料

新詞發現與詞的切分差不多是同一回事 1.資訊熵 最常用2.基於切分的新詞發現 相比1計算量要小,可能引數選取需要根據文字資料量來調整 3.遺忘演算法 可能是計算量最小的演算法了,效果有待驗證 特點 無監督學習 o n 級時間複雜度 訓練 執行為同一過程,可無縫處理流式資料 未登入詞 新詞 登入詞沒有...