資料分析崗筆面經及基礎總結

指令碼語言

計算機網路

資料庫大資料技術

資料探勘技術

機器學習演算法和模型

資料分析常見指標

其他筆面經

在準備面經前有些基礎知識是必不可少的，面經只是平時積累的冰山一角，本文盡量寫出我筆面試過程中遇到的重點難點（每個人的知識儲備不同，見仁見智）。千里之行，積於跬步！

例項：

前中後序互求技巧：

邏輯判斷：

改變檔案許可權：

複數表示：real + image j

最主要特點：

每一條tcp連線只能有兩個端點(endpoint)，點對點，不可多播和廣播tcp提供可靠交付的服務。無差錯、不丟失、不重複，並且按序到達。（tcp提供的是可靠交付，所以tcp首部開銷會大；udp協議只是盡最大努力交付，udp的首部開銷小）

tcp提供全雙工通訊。雙向通訊。

面向位元組流。雖然應用程式和tcp的互動是一次乙個資料塊（大小不等），但tcp把應用程式交下來的資料僅僅看成是一連串的無結構的位元組流。tcp並不知道所傳送的位元組流的含義。

索引的特點：

特點：所有的非主屬性對每乙個碼都是完全函式依賴（暗含主關鍵字裡面可能有多個碼可以將實體區分）

所有的主屬性對每乙個不包含它的碼也是完全函式依賴（即所選碼與未選擇的碼之間也是完全函式依賴的）

沒有任何屬性完全函式依賴於非碼的任何一組屬性（即非主屬性之間不能函式依賴）

hive是基於hadoop的乙個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供類sql查詢功能。

在google三篇大資料**發表之後，cloudera公司在這幾篇**的基礎上，開發出了現在的hadoop。但hadoop開發出來也並非一帆風順的，hadoop1.0版本有諸多侷限。在後續的不斷實踐之中，hadoop2.0橫空出世，而後hadoop2.0逐漸成為大資料中的主流。

map 和 reduce 其實是函式式程式設計中的兩個語義。map 和迴圈 for 類似，只不過它有返回值。比如對乙個 list 進行 map 操作，它就會遍歷 list 中的所有元素，然後根據每個元素處理後的結果返回乙個新的值。

而 reduce 在函式式程式設計的作用則是進行資料歸約。reduce 方法需要傳入兩個引數，然後會遞迴地對每乙個引數執行運算。

hadoop mapreduce 和函式式中的 map reduce 還是比較類似的，只是它是一種程式設計模型。我們來看看 wordcount 的例子就明白了。

所謂 mapreduce 的意思是任何的事情只要都嚴格遵循 map shuffle reduce 三個階段就好。其中shuffle是系統自己提供的而map和reduce則使用者需要寫**。

參考：分治演算法到mapreduce

在hadoop1.0中，namenode有且只有乙個，雖然可以通過secondarynamenode與namenode進行資料同步備份，但是總會存在一定的延時，如果namenode掛掉，但是如果有部份資料還沒有同步到secondarynamenode上，還是可能會存在著資料丟失的問題。mapreduce同樣是乙個主從結構，由乙個jobtracker（主）和多個tasktracker（從）組成。

hadoop2.0為克服hadoop1.0中的不足進行了下面改進：

針對hadoop1.0單namenode制約hdfs的擴充套件性問題，提出hdfs federation，它讓多個namenode分管不同的目錄進而實現訪問隔離和橫向擴充套件，同時徹底解決了namenode單點故障問題；

yarn作為hadoop2.0中的資源管理系統，它是乙個通用的資源管理模組，可為各類應用程式進行資源管理和排程，不僅限於mapreduce一種框架，也可以為其他框架使用，如tez、spark、storm、hive等

資料探勘的基本任務：

資料探勘方法：

分類方法：

是否需要歸一化處理：

ps: 留存率r，新增使用者n和日活a的轉化

第m天的日活am = nm + nm-1 * r1 + nm-2*r2 + …… + n1 * rm-1 + a1 * rm-1

資料真實性（趨勢變動是突然還是緩慢，是否是正常環境因素導致）

拆分維度，確定範圍

分維度做假設：產品、技術和運營

又稱演化模型。與建造大廈相同，軟體也是一步一步建造起來的。在增量模型中，軟體被作為一系列的增量構件來設計、實現、整合和測試、每乙個構件是由多種相互作用的模組所形成的提供特定功能的**片段構成，增量模型在各個階段並不交付乙個可執行的完整產品，而是交付滿足客戶需求的乙個子集的可執行產品。整個產品被分解成若干構件，開發人員逐個構件地交付產品，這樣做的好處是軟體開發可以較好地適應變化，客戶可以不斷地看到所開發的軟體，從而降低開發風險。具有回溯性，可返回修改

軟體開發過程每迭代一次，軟體開發又前進乙個層次

位元組資料分析筆試就是一些經典行測題目，主要是資料圖表題，難度比一般行測還要低，基本不需要準備。

資料分析崗筆面經及基礎總結

資料分析面經阿里

筆經騰訊2018暑期實習生資料分析崗筆試經歷

資料分析崗從一面到終面

資料分析崗筆面經及基礎總結

資料分析面經 阿里

筆經 騰訊2018暑期實習生 資料分析崗筆試經歷

資料分析崗 從一面到終面

相關推薦

資料分析面經阿里

筆經騰訊2018暑期實習生資料分析崗筆試經歷

資料分析崗從一面到終面