大資料應用技術課程實踐 選題與實踐方案

2022-09-17 03:15:09 字數 787 閱讀 4586

一、選題與意義

1.hadoop平台應用

2.kaggle分析資料專案

簡要說明理由與意義。

答:選擇kaggle分析資料專案

專案:房價**(house prices)

理由與意義:由於第一題hadoop環境搭建困難重重,加上硬體裝置需要500g+8g以上,故選擇第二題。選擇房價**的目的是房價這方面是跟我們生活比較符合,有很高的專案價值。

二、實踐方案

簡要說明理由。

答:使用annconda環境進行編碼

三、實踐任務分解

根據所選的題目,明確實驗步驟,分解任務到每天。

第一、二天(6.23,6.24):

資料匯入與預處理:

模組匯入

資料匯入

特徵處理

異常處理等 

第三、四天(6,24-6,25):

特徵處理:

資料集連線

缺失資料分析

資料相關性

重新劃分資料集等

第五------八天(6.26-6.30):

建模:交叉驗證

建立基礎模型

模型訓練與測試:

定義評估模型

模型訓練、**、評估

生成結果檔案

第九天(7.1):

2、完成課程實踐報告

四、實踐計畫

按任務分解撰寫計畫表,每天按計畫表開展工作。

第天根據實際情況更新計畫表,有必要時調整。

1.大資料平台安裝軟體:

虛擬機器映象檔案:

2.說明:

weka應用技術與實踐(1)

weka介紹 導言weka 1.1大資料簡介 1.1.1大資料的概念和意義 1.從資料到大資料 三個標誌性事件 08年 自然 首次提出 大資料 概念 11年 科學 首次分析了大資料對人們生活造成的影響,詳細描述了人類面臨的 資料困境 11年麥肯錫研究院發布報告,第一次給大資料做出相對清晰的定義 大資...

大資料應用技術學習日誌

一.學習內容 這是學期第一堂課,對本學期的大資料應用進行了簡介,主要是說明了大資料的概念,並列舉了一些例項。大資料 big data 我們用常規額工具是不好統計的,或者說我們在一定的時間範圍內是處理不了的,它是龐大的,海量的一種資料集合。同事它也是一種有用的資訊資產,它很多樣化。我們知道的比如說 的...

大資料技術與應用 Redis

1.基礎知識 redis是用c語言開發的乙個開源的高效能鍵值對 key value 資料庫。它通過提供多種鍵值資料型別來適應不同場景下的儲存需求,目前為止redis支援的鍵值資料型別如下字串 列表 lists 集合 sets 有序集合 sorts sets 雜湊表 hashs wget步驟如下 將r...