概述:
此分享是關於hadoop在ebay中的使用歷程的彙總。作者來自ebay
分享點:
資料報括query log、sellers、buyers、clicks、items/products、feedbacks、performance、images、user history、crawled data;
資料就是機會;
在ebay解決了單節點問題、更好的資源管理、排程以及虛擬集群管理;
hadoop中增加許可權控制以及多租戶以滿足許可權控制;
hadoop主要在用著ebay的新聞檢索系統、社交應用、移動應用、爬蟲以及日誌系統;
hbase在ebay增強了load balancing,mr排程,hdfs合併;
SequenceFile在Hadoop中使用
概念 sequencefile是乙個由二進位制序列化過的key value的位元組流組成的文字儲存檔案,它可以在map reduce過程中的input output 的format時被使用。在map reduce過程中,map處理檔案的臨時輸出就是使用sequencefile處理過的。所以一般的se...
interview 在eBay的實習生活
基於經驗猜想到年底boss會因為各種事情無暇顧及我,2012年11月份開始投簡歷,期待1月份開始實習。先後抱著一種練手的心態投了一些公司,包括現在的東家。現在深感面試也是需要實踐的,實踐出真知。最先投的職位是nvida的測試 根據招聘介紹以及我以及在這家公司實習的同學描述,測試實習生日常的工作就是根...
Hadoop集群在使用過程中的問題
經驗總結 配置前一定要先配置tmp,否則所有的配置檔案儲存在 虛擬機器 系統的臨時檔案裡,重啟後全部丟失,導致必須要reformat namenode reformat次數多了以後還會導致id不統一,datanode節點起不來的問題。切記切記。配置完了hadoop集群,將在使用過程中的問題記錄在此 ...