大資料可以統計到媳婦的喜好嗎？

今天媳婦問我乙個問題：「大資料可以統計到媳婦的喜好嗎？」

正確的標準答案是：利用大資料技術統計媳婦的喜好是乙個相當不靠譜的事情，因為程式設計師再牛、使用再炫酷的技術去統計媳婦的喜好，都不如離開電腦陪媳婦聊會天、一起做個飯、拉拉家常、用心去感受媳婦的喜怒哀樂，給予所需。

既然非得要去使用技術手段得出點結論，那麼就立項做個規劃吧。

統計喜好這個工作大體分為以下幾個步驟：

1、資料採集

2、資料儲存

3、資料分類建模

4、資料分析、統計、**

5、結果展示

接下來分步詳細介紹各個階段的過程和使用到的技術棧：

1、資料採集

想用大資料來進行分析，首先得有大資料，要將相關的資料全部採集集中起來進行統一管理，再進行分析。

主要用到的技術是爬蟲技術，可以使用python的scrapy包進行資料爬取。

2、資料儲存

資料可以儲存在關係型資料庫mysql、mssql，甚至文字檔案中，如果要使用大資料技術，可以使用hadoop，將資料儲存在hadoop的hdfs上。

3、資料分類建模

上一步中將採集的資料放入hdfs上儲存了，但是因為資料**不同，格式散亂，也只是各自代表了不同的方面的含義，需要將資料進行整合，形成資訊全面、格式統一，量綱統一的資料，這就需要對資料進行分類建模，建立一系列的資料模型，能夠對資料進行有效管理。資料建模非常重要，這決定了是否可以在後續過程中進行有效的資料分析。

資料模型確定好後，在資料進入模型前，需要對資料進行清洗，去除無用資料，整理資料格式。

資料模型建立和資料清洗可以使用hive、mapreduce技術，最終形成一系列的規整的hive表。

4、資料分析、統計、**

現在規整的有效資料有了，下一步就要對資料進行挖掘，提取出有效資訊、從資料中找出規律、得出結論並且還可以根據現有資料對以後發生的事情進行**。

這一階段可以是分為兩類技術：使用hive sql、spark等技術可以進行資料匯**計，得出已有資料的資訊價值；另一類技術就是使用傳統機器學習、深度學習的技術進行**，機器學習可以使用python機器學習庫sklearn、spark mllib機器學習庫、深度學習庫tensorflow等。

5、結果展示

資料分析的結果，最終應該展示出來，使得更加直觀。

資料分析的結果可以儲存到mysql等關聯式資料庫中，也可以儲存在hbase、elasticsearch工具中，他們的共同特點是可以快速讀取。

可以使用python ui或者web ui將結果進行展示，常用的web ui控制項有**、柱狀圖、餅圖、折線圖等圖表。

以上內容純屬瞎扯，希望大家多多交流！

大資料可以統計到媳婦的喜好嗎？

資料探勘和大資料 OLAP 資料統計的區別

做大資料分析的怎麼可以不會這個？

資料庫大資料統計的設計方案

大資料可以統計到媳婦的喜好嗎？

資料探勘和大資料 OLAP 資料統計的區別

做大資料分析的怎麼可以不會這個？

資料庫大資料統計的設計方案

相關推薦