solr4 7 2 索引遠端檔案內容

2021-09-02 12:40:10 字數 2559 閱讀 2574

首先在網上看了下面的三個部落格文章挺有用的。

因為在網上這樣的資料挺少的,就自己根據知道的乙個乙個測試,最後成功的索引的文件內容。

在這裡總結幾點

1.索引遠端文件所需要的jar請參考我提供的那三篇部落格,是一樣的,雖然不太了解其中一些jar包的意思,希望以後可以研究下。

在solr-4.7.2\example中有很多例子可以幫助我們學習,如solr-4.7.2\example\example-dih\solr就有solr對不同形式的資料進行索引的例子,如網路檔案,mail,db等。

2.益達在部落格中寫到指定依賴的jar包,而不用都將jar包放到tomcat伺服器的solr專案的web-inf的lib下。

指定依賴的jar包載入路徑:

在部落格中作者也遇到了這樣的問題,最後也是將jar放到tomcat的伺服器目錄中解決的。

3.我使用的是entity巢狀的方式

3.1子entity也是sql查詢的話,如果引用父entity的變數,這個變數必須是父entity的外來鍵,因為父子entity做的是主外來鍵left join的查詢

3.2子entity使用其他的processor的話,引用父entity的值,則這個值不必是父entity的外來鍵。

部落格中寫到

最後上傳下我自己寫的data-config.xml的配置,scheme.xml和solrconfig.xml配置就不說了,挺簡單的。

[html]view plain

copy

<

dataconfig

>

<

datasource

name

="binurldatasource"

type

="binurldatasource"

/>

<

datasource

name

="oracle"

type

="jdbcdatasource"

driver

="oracle.jdbc.driver.oracledriver"

url="jdbc:oracle:thin:@20.10.130.160:1521:orcl"

user

="caiwu63"

password

="1"

/>

<

document

name

="filedocument"

>

<

entitypk=

"fileurl"

datasource

="oracle"

name

="files"

query

="selectuft.filenameasfilename,uft.fileurlasfileurlfromump_fastdfs_testuft"

>

<

field

column

="filename"

name

="filename"

/>

<

field

column

="fileurl"

name

="fileurl"

/>

<

entity

processor

="tikaentityprocessor"

name

="onlinetxtfile"

url=

"$"datasource

="binurldatasource"

format

="text"

>

<

field

column

="author"

name

="author"

meta

="true"

/>

<

field

column

="title"

name

="title"

meta

="true"

/>

<

field

column

="text"

name

="text"

/>

entity

>

<

entity

name

="comment"

query

="selectuft.fileurlasfileurl2fromump_fastdfs_testuftwhereuft.fileurl='$'"

>

<

field

column

="fileurl2"

name

="fileurl2"

/>

entity

>

-->

entity

>

document

>

dataconfig

>

solr4 7 2 索引遠端檔案內容

首先在網上看了下面的三個部落格文章挺有用的。因為在網上這樣的資料挺少的,就自己根據知道的乙個乙個測試,最後成功的索引的文件內容。在這裡總結幾點 1.索引遠端文件所需要的jar請參考我提供的那三篇部落格,是一樣的,雖然不太了解其中一些jar包的意思,希望以後可以研究下。在solr 4.7.2 exam...

獲取遠端檔案內容

獲取遠端檔案內容 第一種方法 file get contents url contents file get contents url 如果出現中文亂碼使用下面 content iconv gb2312 utf 8 file get contents url echo contents 第二種方法 ...

Solr 學習總結之配置檔案內容

solr 的三個配置檔案 solr.xml,solrconfig.xml schema.xml.solr.xml是solr第乙個查詢的配置檔案,persistent意思為是否將註冊的例項的配置進行持久化動態註冊乙個例項,就會到這裡新增乙個solrcore元素節點 admin cores 如果這裡沒有...