基於Spark的邏輯回歸實驗

首先需要明確，一般來說spark可以支援scala、python、r等多種語言，這裡用的是scala的指令碼。在spark安裝目錄下，執行bin/spark-shell可以啟動scala指令碼，然後可以逐行輸入scala命令。另一種方式是直接編寫如test.scala這樣的指令碼檔案，然後交給spark-shell執行：./spark-shell < test.scala

以上說的是本地模式執行，而如果要遠端執行，首先需要乙個集群，實驗室用的集群模式為

此集群有乙個master和多個worker組成，這個是在安裝之初就設定好的。啟動這個集群的命令為./start-all或者其他，具體文件上也有說明。集群啟動之後，就可以用spark-shell來進行命令列操作，不過需要加上一些引數：./spark-shell --master spark://masterip:port，其中port預設為7077，具體可在spark standalone的文件裡查詢。

如果在執行時需要讀寫檔案，則牽涉到spark的檔案系統——hdfs，這個本質上是乙個hadoop的檔案系統，操縱該系統的命令為hadoop fs -command。如瀏覽本使用者的目錄：hadoop fs -ls /whx。再比如上傳本地檔案：hadoop fs -put localfile

/user/hadoop/hadoopfile。具體的可以查詢hadoop shell命令

然後就是機器學習樣例了，具體**在官網上有，這裡就不貼了，主要需要指出的是，scala好像沒有類似fopen、fstream這些c++的檔案功能，只能開啟檔案和儲存model，但由於要記錄函式執行時間，因此暫時用的方法是println直接輸出到終端。不過這樣一來就有另乙個問題，那就是由於日誌資訊太多，但是命令列終端一次能顯示的訊息數有限，導致有用的訊息被覆蓋掉了。解決方法是：

匯入下面兩個包

import org.apache.log4j.logger

import org.apache.log4j.level

logger.getlogger("org.apache.spark").setlevel(level.warn)

然後就可以找到自己想要的提示了

基於Spark的邏輯回歸實驗

基於邏輯回歸模型的評分卡構建

邏輯回歸最基礎的線性邏輯回歸詳解

邏輯回歸的回顧

基於Spark的邏輯回歸實驗

基於邏輯回歸模型的評分卡構建

邏輯回歸 最基礎的線性邏輯回歸詳解

邏輯回歸的回顧

相關推薦

邏輯回歸最基礎的線性邏輯回歸詳解