solr系列 匯入檔案

2021-08-02 05:49:46 字數 695 閱讀 5804

dataimporthandler外掛程式匯入pdf

從pdf檔案中提取文字進行索引

首先依然是在solrconfig.xml配置檔案中配置dataimport請求處理器,並指定data-config.xml配置檔案載入路徑:

data-config.xml

指定依賴的jar包載入路徑:

如果該路徑沒有jar,到dist複製jar包建立目錄。

data-config.xml:

匯入乙個pdf:

批量匯入pdf:

basedir表示獲取這個資料夾下的檔案,filename支援使用正規表示式來過濾一些basedir資料夾下你不想被索引的檔案,processor是用來生成entity的處理器,而不同entity缺省會生成不同的field域。filelistentityprocessor處理器會根據指定的資料夾生成多個entity,且生成的entity會包含fileabsolutepath, filesize, filelastmodified, filename這幾個域,recursive表示是否遞迴查詢子目錄下的檔案,onerror表示當出現異常時是否跳過這個條件不處理。

然後我們需要在schema.xml中定義域,

配置完畢,然後重啟你的tomcat,執行索引匯入

Solr匯入CSV檔案

首先得準備好乙份csv檔案,這份檔案可以是手動生成,也可以是從資料庫中匯出來的。參見postgresql匯入匯出資料 將postgres中的表匯出為csv檔案。上傳csv檔案示例,在csv檔案中,header不能加雙引號 postgres匯出時缺省會加上 比如下面的檔案匯入會出錯,id name 8...

solr系列二 solr匯入資料庫資料

2.找到d solr home catalog conf schema.xml來配置solr和資料庫的對應字段。uniquekey是文件的唯一標識,必須標識對應的字段,否則solr建立索引報錯。此處的field的name屬性最好和資料庫的字段保持一致,這樣我們可以減少一些對映配置。具體配置如下 ca...

mysql資料匯入solr

在solrconfig.xml配置資料匯入用的requesthandler和資料匯入使用的jar包 dih data config.xml 配置檔案可以是絕對路徑 或相對集合 conf 的相對路徑 deltaimportquery select from t product where prod i...