使用HPC進行生物醫學建模的實際挑戰

2021-10-07 02:34:09 字數 3273 閱讀 2672

精準醫學的基本概念是通過了解個體患者特徵的影響,可以改善癌症等病理的預防,診斷和**。**醫學尋求通過機制模型得出這種理解,該模型描述了特定個體內疾病的原因和(潛在的)進展。這代表了計算生物醫學的巨大挑戰,因為它需要將高度變化的(並且可能是巨大的)定量實驗資料集整合到複雜生物系統的模型中。

越來越清楚的是,這種挑戰只能通過使用結合了不同分析的複雜工作流程來解決,而且由於對**的了解,其設計必須伴隨對不確定性的估計。通常,這種工作流程中的每個階段都具有非常不同的計算要求。如果資助機構和hpc社群認真支援這種做法,他們必須考慮可攜式、永續性和穩定***,這些工具旨在促進這些工作流程的廣泛長期開發和測試。

從模型開發人員的角度來看,介面和超級計算機政策的巨大差異可能是創新最大的障礙。

計算生物醫學的介紹

計算生物醫學的目標是從人類生物學的複雜數學模型中獲得見解,能夠發現新**和改進現有**。這項工作包括從大範圍的時間和空間尺度的整合資料。在精確醫學的背景下應用這種建模需要在模型中包括足夠的細節以區分個體患者。分化的**取決於感興趣的疾病和正在考慮的干預型別。

例如,腦腫瘤中存在的突變極有可能影響藥物的選擇,同時對手術切除腫瘤的效果影響較小。在這裡,我們認為在這個多變且具有挑戰性的領域中開發**和建模不僅僅是方法開發,還可以提高**效能和可擴充套件性。科學家們首先概述計算生物醫學所面臨的具體問題,並將它們置於hpc生態系統的背景下,來表明對醫學工作的影響(腦血流和小分子藥物選擇)。

需要處理大量不同的資料

指定感興趣的系統所需的資料可以跨越許多數量級的尺寸,並且引數維度可以同等地變化。 這自然導致輸入的預處理和隨後的模擬之間的計算要求非常不同。許多計算建模工作輸入資料的預處理可能與模擬本身一樣或更多,在計算上要求很高。此外,自動化需要可靠的資料清潔應用,以及在檢測到「壞」資料時(具有臨床或實驗使用者可理解的錯誤訊息)早期和早期失敗的能力。

複雜的工作流程

典型的生物醫學模擬不是乙個步驟,而是完整的工作流程,攝取資料和預處理以指定感興趣的系統,然後進行大規模模擬,最後進行分析。這種有向非迴圈工作流程作為計算的基本描述是常見的,但是以穩健的方式處理不確定性量化,自適應取樣或模型失效可能導致更複雜的工作。

經歷挑戰的多樣性

專案職責的一部分是了解社群的各種需求,並與hpc提供商合作彼此適應對方。

a.繫結無效計算器

結合功能計算器(bac)自動化分子動力學(md)模擬的系統構建、執行和分析,以便計算藥物與藥物結合蛋白質的強度。雖然bac支援一系列模擬方案和分析方法,但工作流程對所有人來說都很常見。從單個輸入結構開始了許多相同蛋白質——藥物複合物的「複製」模擬,每個輸入結構由許多連續步驟組成。一旦模擬完成,就執行分析步驟。使用多個副本模擬**作為取樣策略並提供不確定性估計。

bac可以用於根據患者(或病原體)內蛋白質的基因序列,以及藥物發現情景,對藥物結合進行個體化。在這兩種情況下,可能需要大量的執行,以解開突變的相互作用或掃瞄大的化學空間。通常,基於bac的md模擬使用少於幾百個核心(或節點的價值加上gpu),並且需要6到12個小時才能完成。大多數超級計算機的政策迫使這些工作**在一起,以便按照規定的規模執行。這是由於佇列中每個使用者允許的作業數量的限制或者特定作業大小的要求允許執行足夠長的時間來完成模擬。為了促進這些執行,我們最近開發了htbac,它標準化了可以訪問的超級計算機管理副本的方式。此外,通過使用工作流中介軟體,我們有可能使用自適應執行模式(例如,一旦達到收斂就終止模擬,並將釋放的核用於其他系統)。

b. hemelb

hemelb是一種3d計算流體動力學求解器。在x射線ct掃瞄(或不太常見的mri掃瞄)期間拍攝患者大腦的影象被分段並組合以形成血管網路的3d表面。還可以將流動轉向支架引入該網狀物中。在準備使用lbm進行模擬時,表面內部以所需的解析度(通常為10μm或更低)離散化。這種網格化過程可能帶來很高的計算成本,通常占用很大一部分的成本。

工作流程中的每個步驟都可以並且確實具有非常不同的資源要求,並且如果通過i/o完成,則步驟之間的資料傳輸可能是昂貴的。這些不同的計算需求,特別是在核心數量方面,意味著在單個作業提交中啟動給定的工作流並不總是可行或實際的,而是通過排程多個順序作業而產生額外的排隊時間。

工作流程要求

計算生物醫學工作流程的開發,驗證和驗證代表了一項重要的投資。因此,工作流程的便攜性和可重複性對於保持低成本是至關重要的。不幸的是,開發人員目前面臨兩個空間(在具有不同架構和策略的不同計算機上執行)和時間(在同一臺計算機上進行系統更新,影響可重複性)的可移植性問題。

空間方面在決定是否依賴特定中介軟體工具時尤其重要,這些工具可能在給定的超級計算機上節省時間,而在另乙個超級計算機上被安全策略完全或部分禁止。該領域缺乏標準,增加了應用程式開發人員對使用某些型別的中介軟體(例如工作流引擎)的沉默。在相關的說明中,中介軟體的第三方性質意味著支援的責任既不是使用者也不是超級計算人員。人們可能不希望投資開發依賴於乙個或多個第三方工具的工作流程,這些工具在兩三年內可能會或可能不會維持。不幸的是,這種工作流程的發展時間規模至少為幾年。

用於大型資料集的工具

用於精確醫學工作流程(作為輸入或中間步驟)的大型資料集的一組標準工具很快就會變得必不可少。來自下一代測序和醫學成像的資料集可能導致異常大的檔案。例如,在hemelb內輸入資料檔案可以是幾十tb的量級。這導致建立了定製的檔案讀取**,其中這些檔案在多個儲存目標上條帶化以增加頻寬並允許同時訪問多個程序的相同檔案。此**的建立需要多種解決方法來限制庫的限制,例如mpi和系統特定的優化(例如條帶計數)。維護此**代表了相當大的開銷,需要遠離科學的努力,以及額外**脆弱性的**。用於此類任務的標準化工具或庫將有助於更好,更強大的****開發。

由於超級計算機的軟體和策略可能在沒有足夠警告的情況下發生變化,因此工作流和中介軟體層能夠實現具有不同計算要求的步驟的流水線操作,因此容易出現不穩定性。認識到超級計算平台通常位於使用者部署的非常複雜的軟體堆疊的底部,並且考慮到這一點,採用適當的變更管理策略(例如由itil管理)在這裡是非常寶貴的。

未來發展方向

常用和常用標準

通過考慮過多的現有工作流程工具,可以識別應用程式開發人員最需要的功能,並從那裡開發乙個標準api或一組工具,以暴露所需的功能 通過將責任從第三方開發人員轉移到最熟悉自己機器的員工,跨越不同的hpc站點。它不足以定義標準,必須以鼓勵使用者(和開發人員)購買的方式使其可訪問和支援。

社群管理

乙個可能的解決方案是社群組織,例如歐盟h2020資助的卓越中心,以維護中心工具,以適合其使用者群的方式實現工作流程。這需要伴隨特定hpc中心的一些鏈結,但不要將維護者繫結到特定機器應該減少每個超級計算中心的「島效應」,只為使用者提供它想要的環境。

容器化許多可移植性問題可以通過使用容器來解決。但是,當應用於極大或複雜的hpc系統和應用程式時(例如,與雲服務上執行的典型作業相比),這種方法可能會呈現出自己獨特的能力。

生物醫學必學Python包

1.keras keras是乙個高層神經網路api,keras由純python編寫而成並基tensorflow theano以及cntk後端。2.tensorflow tensorflow是乙個基於資料流程式設計 dataflow programming 的符號數學系統,被廣泛應用於各類機器學習 m...

醫學3d成像軟體 生物醫學3D成像從蜘蛛網獲得靈感

蜘蛛網有著出色的機械適應性和抗損壞能力,能禁得起暴風雨下各種外力的衝擊。研究人員由此得到啟發,開發了一種用於生物醫學的三維光電探測器。美國普渡大學 purdue university 生物醫學與機械工 程助理教授李志煥 chi hwan lee,譯音 說 我們借鑑了蜘蛛網獨特的分形設計,開發出可變形...

普渡大學發明用於生物醫學和軍事防禦的新型定向能裝置

普渡大學創新者的一項發明可能為將定向能用於生物醫學和國防應用帶來了新的方式。普渡大學的發明將基於複合材料的非線性傳輸線 nltls 用於乙個完整的高功率微波系統,消除了對多個輔助系統的需求。在過去的幾十年裡,人們對非線性傳輸線的興趣越來越大,因為它們為傳統的基於真空的高功率微波發生器提供了乙個有效的...