跟著官網學solr(三) 資料匯入

2021-07-12 02:39:37 字數 836 閱讀 2727

前面簡單介紹了索引的主要組成部分,本篇主要是記錄下匯入資料構建索引的幾種配置方法。

匯入資料的命令:bin/solr -e dih

待索引資料主要分為三類:資料庫資料、檔案資料、網頁資料。這三類資料對應的solrconfig.xml的配置是一致的,修改solrconfig.xml,增加所需lib包及以下配置:

data-config.xml

資料庫資料:對應的data-config.xml配置如下:

'$'">

'$'"

parentdeltaquery="select id from item where id=$">

'$'"

parentdeltaquery="select id from item where id=$">

'$'"

parentdeltaquery="select item_id, category_id from item_category where category_id=$">

檔案資料:對應的data-config.xml配置如下:

網頁資料:對應的data-config.xml配置如下:

以上幾個配置可以看出,所有的資料匯入都是由datasource以及entityprocessor兩個物件來進行處理,需要熟悉兩個類及其子類。

參考:

跟著官網學solr(一) solr環境的搭建

最近越來越覺得了解的東西太少,趁最近時間稍多一些,準備學習下solr。學習目標 1.使用solr進行資料的索引及基本的資料查詢 2.了解建立索引及查詢索引的過程 3.進一步了解solr的配置 集群 hdfs 外掛程式等 4.掌握常用查詢方法 4.進入 solr home bin 中,執行solr.c...

跟益達學Solr5之增量索引MySQL資料庫表資料

solr5中如何增量索引mysql資料庫表中的資料,這個問題之前有某個童鞋問過我,今天午休時間就騰空更新篇部落格,希望能幫助到你們。為了測試方便,我首先從京東 弄了點測試資料,如圖 這裡要宣告下,我不是在給京東 打廣告哈,僅僅是隨便找個 弄點測試資料,這部分工作全是我無聊手動插入mysql資料庫中的...

從零開始學Python 三(網路爬蟲)

urllib庫是python的乙個操作url功能強大的庫,經常用在爬蟲程式中。使用上述 我們便可以在程式中開啟並爬取網頁。2.urllib.request.urlopen 使用urlopen方法,引數為想爬取的網頁。成功之後,把爬取的內容賦值給file變數。另,讀取file資料有2種方法 file....