最近在公司search engine的優化

2021-06-10 11:54:42 字數 1047 閱讀 5773

其實有很多可以寫,公司在search engine上做的東西也遠不止一下這些。不過下面所列各點很重要,也非常通用。更多的東西,以後再整理了。

a. 對於query latency是優化的gc策略,優化設定各代heap的尺寸

b. 消除沒有必要的匿名類

c. 對search engine裡的每個queue進行控制和監控

d. 針對lucene的mark deleted機制,做delay deletion,特別針對自己的擴充套件

e. 基於profile的統一的歸一化的sorting

f. 定期的index重建,以及相應的更新策略

g. 對每個重要的metric要暴露出來,並進行監控

a. 需要識別各個源表,並建立統一的search db

b. 建立event table,並為每一種更新源表的事件型別分配event id。每次更新事件發生,就在event table插入一條紀錄,該紀錄索引基於creation_time,並能關聯到源表的相應的紀錄,能進行join

c. 保證event_table能覆蓋任何的search資料更新

d. 確保event_table的資料插入,其creation_time必定是單調遞增,以確保在做batch處理時沒有資料丟失

e. 確保對每個event的處理是冪等操作,保證messaging能以at least once的方式deliver

f. 每個event_table都是有狀態的,即處理過的最後一條event的creation_time,狀態需要persist

最近在看MFC

最近在看mfc.本來想著再看一遍c primer 但是一想總是看書缺乏實踐效果也不是特別好。正好mfc跟c 聯絡的很密切。趁這個機會看看mfc同時也複習下c 看了幾天了,剛開始還迷迷糊糊,隨著看的遍數的增加慢慢的有點兒眉目了。覺得自己有點兒冒進,總是想快點兒看完。這麼厚的書而且以前沒有什麼基礎要看完...

最近在看socket程式設計

上個星期上課的時候網路課老師留下了一道作業 掌握tcp ip網路套接字程式設計的工作原理,學會使用winsock編制網路會話程式。關於網路程式設計的這些知識以前從來沒接觸過,一時不知道如果下手,在課堂上老師前面只是大體講了一些網路的基本知識,比如osi參考模型,7層網路的分類,上面的幾次實驗很簡單,...

最近在看的書

魔鬼心理學 影響力與說服力的深層法則 拖延心理學 如何讓你愛的人愛上你 在看拖延心理學的時候耗費了太多時間。作者用了太多章節來闡述產生拖延的原因,而且章節安排得不是太好。彷彿我們不斷地在看到自己的缺點,但是要到很後面才看到怎麼去解決.而到了後面,作者也並沒有提出非常突出的解決拖延的方法。所以,看這本...