hadoop 第一章 初識Hadoop

2022-07-09 07:24:09 字數 483 閱讀 6373

多年來,硬碟儲存容量快速增加,但訪問速度--資料從硬碟讀取的速度,確未能與時俱進;

從乙個驅動器上讀取所有的資料需要很長時間,寫甚至更慢;

乙個很簡單的減少讀取時間的辦法:同時從多個磁碟上讀寫資料

這也是,hadoop 的mapreduce的最大優勢,或者解決的最大的問題。

為什麼不能使用資料庫mysql,加上更多磁碟來做大規模的批量分析?為什麼需要mapreduce?

這個問題的答案來自於磁碟驅動器的另乙個發展趨勢:定址時間的提高速度遠遠慢於傳輸速率的提高速度

定址:將磁頭移動到特定位置,進行讀寫操作的工序;

定址特點:磁碟操作有延遲,而傳輸速率對應於磁碟的頻寬;

在更新小部分資料庫記錄的時候,傳統的b樹效果很好,但在更新大部分資料庫資料的時候,b樹的效率就沒有mapreduce的效率高,因為它需要使用排序/合併重建資料庫

第一章 初識爬蟲

1 爬蟲的定義 可以自動抓取全球資訊網上資訊的指令碼或程式。2 爬蟲可以解決的問題 1 解決冷啟動的問題。2 搜尋引擎的根基。做搜尋引擎,必須使用爬蟲。3 幫助機器學習建立知識圖譜。機器學習最終的是訓練集。訓練集可以靠爬蟲爬去。4 可以製作比較軟體。1 搜尋引擎定義 自動從網際網路蒐集資訊,經過一定...

第一章 初識Docker

什麼是docker?docker基於linux的多項開源技術提供了搞笑 敏捷和輕量級的容器方案,並且支援在多種主流平台上部署。可以說docker為應用的開發和部署提供了 一站式 的解決方案。docker容器虛擬化的優勢?在開發和運維過程中的優勢 更快速的交付和部署。可以快速建立和刪除容器,實現快速跌...

第一章 初識Redis

redis是一種基於鍵值對的nosql資料庫 支援型別包括string hash list set zset bitmaps hyperloglog geo等多種資料結構和演算法組合。redis會將所有資料儲存到記憶體中,所以它的讀寫速度非常快。redis還可以將記憶體的資料利用快照和日誌的形式儲存...