分布式爬蟲之elasticsearch基礎1

2022-07-06 18:54:08 字數 881 閱讀 9964

一:搜尋引擎elasticsearch介紹

elasticsearch 是乙個全文搜尋引擎,可以快速地儲存、搜尋和分析海量資料。

二:應用場景

三:安裝

elasticsearch 缺省會在 9200 埠上執行,我們開啟瀏覽器訪問http://localhost:9200/

elasticsearch 本質上是乙個分布式資料庫,允許多台伺服器協同工作,每台伺服器可以執行多個 elasticsearch 例項。

單個 elasticsearch 例項稱為乙個節點(node)。一組節點構成乙個集群(cluster)。

elasticsearch 會索引所有字段,經過處理後寫入乙個反向索引(inverted index)。查詢資料的時候,直接查詢該索引。每個 index (即資料庫)的名字必須是小寫。

index 裡面單條的記錄稱為 document(文件)。許多條 document 構成了乙個 index。document 使用 json 格式表示

document 可以分組它是虛擬的邏輯分組,用來過濾 document,類似 mysql 中的資料表,mongodb 中的 collection。

即欄位,每個 document 都類似乙個 json 結構,它包含了許多字段,每個欄位都有其對應的值,多個字段組成了乙個 document,其實就可以模擬 mysql 資料表中的字段。

模擬傳統資料庫:

relational db -> databases -> tables -> rows ->columns

elasticsearch -> indices -> types -> documents -> fields

爬蟲 分布式爬蟲

爬蟲的本質 很多搞爬蟲的總愛吹噓分布式爬蟲,彷彿只有分布式才有逼格,不是分布式簡直不配叫爬蟲,這是一種很膚淺的思想。分布式只是提高爬蟲功能和效率的乙個環節而已,它從來不是爬蟲的本質東西。爬蟲的本質是網路請求和資料處理,如何穩定地訪問網頁拿到資料,如何精準地提取出高質量的資料才是核心問題。分布式爬蟲只...

分布式爬蟲之celery

以爬douban 為例 首先啟動redis,新建檔案crawl douban.py import requests from bs4 import beautifulsoup import time from celery import celery import redis from config...

分布式爬蟲

乙個基於scrapy redis的分布式爬蟲模板,在scrapy redis自帶的example的基礎上進行修改,新增在實際爬取過程中大部分爬蟲可能用到的功能,使的構建分布式爬蟲更加的簡單。scrapy redis windows ubuntu sudo apt get install redis ...