機器學習 wordcount的一些問題

2021-06-17 20:28:37 字數 302 閱讀 9689

wordcount就是hadoop上的「hello world」,非常經典,弄清楚它可以快速的幫助我們理解hadoop一些相關概念和執行機制,

這裡找了一篇好文,

基本上把wordcount分析的非常透徹了,流程大概是這樣子的

但是還是有乙個問題,就是當hadoop在split的時候,

如果將乙個大的文字檔案,切割成的部分中有斷行怎麼辦?

又找一篇,作者分析了原始碼,

當讀到斷行時,會去下乙個split獲取資料

關於reader的問題,還有自定義的inputformat的方法,在這裡有一篇

機器學習一 機器學習概要

回歸 是指把實函式在樣本點附近加以近似的有監督的模式識別問題。對乙個或多個自變數和因變數之間關係進行建模,求解的一種統計方法。分類 是指對於指定的模式進行識別的有監督的模式識別問題。異常檢測 是指尋找輸入樣本ni 1i 1 n中所包含的異常資料的問題。常採用密度估計的方法 正常資料為靠近密度中心的資...

機器學習一

機器學習就是把無序的資料轉換成有用的資料資訊。機器學習分為監督學習以及無監督學習。監督學習適用分類和回歸為問題。監督學習必須要知道 什麼,即目標變數的分類資訊 1.1 分類 主要將例項資料劃分到合適的分類中。1.2 回歸 用於 數值型資料 無監督學習適用於資料沒有類別資訊,也沒有目標值。無監督學習中...

機器學習(一)

1.1 引言 基礎概念弄得清清楚楚,演算法作業也是信手拈來,這門課成績一定查不了!基於經驗的三個預判例子 微濕路面 感到和風 看到晚霞,預判第二天天氣很好 色澤青綠 根蒂捲縮 敲聲濁響,預判西瓜是好瓜 下足功夫 弄清概念 做好作業,預判會取得好成績。我們能做出有效的判斷,是因為我們已經積累了許多經驗...