深度學習平台之技術棧

2021-10-07 10:45:21 字數 614 閱讀 8190

技術點:

資料分布式儲存,ib網路,分布式儲存,儲存資料管理

任務分布式排程

ib網路,多機多卡,萬兆網路

mongodb資料庫

docker隔離,訓練框架caffe

資料分析,自動化測試報告多維度分析

海量資料量:幾個t,幾百萬的小檔案數,資料探勘

深度學習訓練框架增強,多機,多卡,單機多卡,網路聚合

不同訓練框架的相容和轉換

新技術:docker容器,k8s容器,nginx反向**,mongodb資料庫,mysql資料庫,caffe/pytorch,redis,django+uwsgi,(haddop,spark,gpfs)

產品:每乙個場景都需要定製,資料量,時效性

市場:使用者場景複雜,使用者資料無法獲取,需要對應場景定製,新興市場

人才:工程人才+演算法人才,工程+大資料分布式計算人才,容器雲人才

效能指標和挑戰:

技術:1)分布式儲存:高效能1pb,低效能 檔案數/秒, 大檔案頻寬數/秒

2)資料管理平台qps,標註平台,訓練平台,自動化測試平台,(cpu,網路,磁碟io)

3)伺服器數目500臺

4)伺服器運維監控,500臺伺服器,qps:

搭建深度學習平台記錄

第一次搭建深度學習平台,簡單的記錄一下過程。一 首先我安裝了anaconda。首先因為現在的3.7版本與tf不適用,所以先降級為3.6.8 在降級的時候開啟anaconda prompt,乙個類似命令列的東西,控制anaconda環境python各種庫的安裝。輸入 conda install pyt...

阿里雲深度學習平台試玩

python cifar pai.py buckets users kylefan program cifar 10 cifar 10 batches py checkpointdir users kylefan program cifar 10 checkpoint 其中 buckets對應下圖的...

深度學習模型轉換技術

深度學習模型轉換技術 目前的轉換技術在設計思路上主要存在兩種差異,一種是直接將模型從現有框架轉換為適合目標框架使用的格式,我們在這稱此技術為直接轉換技術 另外一種是針對深度學習設計一種開放式的檔案規範,而主流深度學習框架最終都能實現對這種規範標準的支援,這種技術的代表是開放式神經網路切換框架 onn...