開源大資料索引專案hive solr

[size=medium]

[url]

最新更新：

（1）新增了對solrcloud集群的支援

（2）修復了在反序列時對於hive中null列和空值的處理bug

（3）優化了在構建索引時對於null值和空值的忽略

一些測試：

資料量：約一千二百萬，8個字段，其中乙個是大文字，2個是分詞字段，索引前資料體積約20g

索引總耗時：約15分鐘

索引後體積：每個shard約6g，共約18g

hive：限制最大併發map數為30個，怕影響hbase服務，注意使用hive建完索引後，需要手動commit一次，使記憶體索引flush到磁碟上

批處理：每個map裡面10萬資料，批量處理提交一次，不commit，這個值根據情況設定，太大了容易solrcloud容易丟資料，太小了會影響速度

solrcloud集群版本為5.1使用3臺機器，每台乙個shard，無副本，jetty的記憶體給了10g

cpu：24核，注意大文字分詞字段非常耗cpu

solr的jvm引數調整：

（1）調大 survivorratio 區佔比，降低survivor區的記憶體空間

（2）調小newratio區佔比，增大新生代的記憶體空間

（3）調大永久代maxpermsize記憶體至256m

（4）調整maxtenuringthreshold=0 ，使大物件加速進入老年代，避免在survivor和eden區來回拷貝，使用ygc次數變多

其他引數還是預設配置

solr服務端配置：

（1）關閉自動commit

（2）設定rambuffersizemb為1000 ，約等1g

（3）設定maxbuffereddocs等-1，禁用maxbufferdocs

（4）設定mergefactor為100

[/size]

[b][color=green][size=large]

技術債不能欠，健康債更不能欠，求道之路，我們同行。

[/size][/color][/b]

[img]

開源大資料週刊第52期

摘要利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源隔離和quota限制本文結合emr集群，講述了如何利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源quota限制與管控。本文根據姜偉華博士在數果智慧型新產品...

開源大資料週刊第29期

摘要阿里雲e mapreduce動態 e mapreduce產品即將發布的版本資訊如下 1.5.2版本增加預定制配置，如試用型入門型計算型記憶體型等增加包年包月自動續費功能 1.6.0版本互動式查詢支援hive spark 資訊 cio時代學院院長姚樂大資料的行業應用策略關於大資...

開源大資料週刊第18期

摘要本週關注 hadoop集群的規劃大資料的位置資料電商hadoop實戰 alluxio及hadoop spark hive之間的關係。e mapreduce團隊 1.4.1版本已經發布 1.5.0版本正在研發 1.6.0版本 e mapreduce hadoop 10大類問題之集群規劃...

開源大資料索引專案hive solr

開源大資料週刊 第52期

開源大資料週刊 第29期

開源大資料週刊 第18期

相關推薦

開源大資料週刊第52期

開源大資料週刊第29期

開源大資料週刊第18期