開源大資料索引專案hive solr

2021-09-02 15:18:52 字數 1028 閱讀 2580

[size=medium]

[url]

最新更新:

(1)新增了對solrcloud集群的支援

(2)修復了在反序列時對於hive中null列和空值的處理bug

(3)優化了在構建索引時對於null值和空值的忽略

一些測試:

資料量:約一千二百萬,8個字段,其中乙個是大文字,2個是分詞字段,索引前資料體積約20g

索引總耗時:約15分鐘

索引後體積:每個shard約6g,共約18g

hive:限制最大併發map數為30個,怕影響hbase服務,注意使用hive建完索引後,需要手動commit一次,使記憶體索引flush到磁碟上

批處理:每個map裡面10萬資料,批量處理提交一次,不commit,這個值根據情況設定,太大了容易solrcloud容易丟資料,太小了會影響速度

solrcloud集群版本為5.1使用3臺機器,每台乙個shard,無副本,jetty的記憶體給了10g

cpu:24核,注意大文字分詞字段非常耗cpu

solr的jvm引數調整:

(1) 調大 survivorratio 區佔比,降低survivor區的記憶體空間

(2)調小newratio區佔比,增大新生代的記憶體空間

(3)調大永久代maxpermsize記憶體至256m

(4)調整maxtenuringthreshold=0 ,使大物件加速進入老年代,避免在survivor和eden區來回拷貝,使用ygc次數變多

其他引數還是預設配置

solr服務端配置:

(1)關閉自動commit

(2)設定rambuffersizemb為1000 ,約等1g

(3)設定maxbuffereddocs等-1,禁用maxbufferdocs

(4)設定mergefactor為100

[/size]

[b][color=green][size=large]

技術債不能欠,健康債更不能欠, 求道之路,我們同行。

[/size][/color][/b]

[img]

開源大資料週刊 第52期

摘要 利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源隔離和quota限制 本文結合emr集群,講述了如何利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源quota限制與管控。本文根據姜偉華博士在數果智慧型新產品...

開源大資料週刊 第29期

摘要 阿里雲e mapreduce動態 e mapreduce產品即將發布的版本資訊如下 1.5.2版本 增加預定制配置,如試用型 入門型 計算型 記憶體型等 增加包年包月自動續費功能 1.6.0版本 互動式查詢 支援hive spark 資訊 cio時代學院院長姚樂 大資料的行業應用策略 關於大資...

開源大資料週刊 第18期

摘要 本週關注 hadoop集群的規劃 大資料的 位置資料 電商hadoop實戰 alluxio及hadoop spark hive之間的關係。e mapreduce團隊 1.4.1版本 已經發布 1.5.0版本 正在研發 1.6.0版本 e mapreduce hadoop 10大類問題之集群規劃...