DNA序列竟被編成惡意軟體感染計算機

2021-09-23 03:36:58 字數 2474 閱讀 4062

本文講的是dna序列竟被編成惡意軟體感染計算機,生物學家dna的時候,他們盡量不產生或擴散可用於製造毒素或傳染病的基因**片段。但一組生物黑客證明了dna可攜帶讓人意想不到的威脅——不感染人類或動物,而是感染計算機的病毒。

在8月10日的usenix安全大會上展示的新研究中,華盛頓大學的研究團隊首次展示了將惡意軟體編碼進實體dna鏈的可能性。被編碼的dna序列接受基因測序儀分析時,其結果資料就會變身成一段程式,破壞基因測序軟體進而控制底層電腦。

雖然該攻擊遠未達到間諜或罪犯可實際使用的程度,但隨著dna測序越來越普及和強大,且可由第三方服務在敏感計算機系統上進行,該攻擊投入實用的可能性也隨時間推移而增加。而且,對網路安全社群而言,它還代表著純黑客智慧型的一種科幻**式令人印象深刻的壯舉。

主管該項目的華盛頓大學電腦科學教授河野忠義,將該技術與在網頁或電郵附件中打包進惡意**的傳統黑客攻擊相比較,稱:「我們知道,如果對手控制了計算機正在處理的資料,就有可能接管該計算機的控制權。這意味著,當你審查計算生物學系統時,你要考慮的不僅僅是網路連線性、u盤和電腦前坐著的操作員,還要考慮他們正在測序的dna裡儲存的資訊。這是完全不同的一類威脅。」

科幻**式的黑客攻擊

目前為止,該威脅還停留在麥可·克萊頓科幻**情節的程度,還算不上計算生物學家應該關心的問題。但隨著基因測序越來越多地被集中式服務處理——通常由擁有昂貴基因測序裝置的大學實驗室執行,該依託dna的惡意軟體攻擊在一步步邁向現實。尤其是在dna樣本來自外部源,很難進行恰當的審查的情況下。

如果黑客確實實現了該攻擊,他們就有可能獲得寶貴的智財權,或者汙染基因分析結果,比如罪犯dna檢測。公司企業甚至可以在轉基因產品的dna中植入惡意**,作為保護商業機密的一種方式。在未來,會出現很多有趣,或者說恐怖的此類應用。

然而,不管研究的實際原因是什麼,僅僅在dn**段儲存的資訊上打造計算機攻擊——所謂「漏洞利用」,就代表了華盛頓大學研究團隊史詩般的黑客大挑戰。研究人員從編寫著名的「緩衝區溢位」漏洞利用程式開始,填充計算機記憶體中為特定資料開闢的儲存空間,然後溢位蔓延到另一塊記憶體以植入其惡意指令。

但在實際dna中編碼該攻擊,比他們原先預計的要困難。dna測序,是通過將dna與dna基本**單元(a/t/g/c鹼基)繫結的化學物質相混合,再將不同鹼基發出的色光攝入dna分子**中進行分析。為加速這一過程,百萬鹼基的影象被分割成數千塊資料並行分析。因此,構成攻擊的所有資料也必須嵌進數百個鹼基中,以增加在測序儀並行處理過程中完好無損的概率。

研究人員以a、t、g、c四種鹼基的形式將他們精心構造的攻擊發往 integrated dna technologies 公司的dna合成服務時,他們發現dna還有其他物理限制。為使dna樣本保持穩定,他們不得不保留一定比例的g-c和a-t配對,因為dna自然穩定性就取決於這些配對的固定比例。而緩衝區溢位往往需要用同一串資料重複填充,會導致dna鏈自行摺疊。所有這些意味著,他們不得反覆重寫漏洞利用**,找出可以作為實際dna存活下來的形式,供合成服務最終在手指大小的塑料瓶裡發給他們。

其結果,最終就是一段能挺過從實體dna翻譯到數字dna的攻擊軟體——藏在用於儲存dna序列的fastq中。當該fastq檔案用常見壓縮程式fqzcomp壓縮——fastq檔案因可展開到數gb文字而往往需要壓縮,就會用其緩衝區溢位漏洞黑了壓縮軟體並突破該程式限制,進入執行該壓縮程式的計算機記憶體,執行其攜帶的任意指令。

遙遠的威脅

即便如此,該攻擊完全翻譯率也僅有37%,因為測序儀的並行處理往往會將其截斷,或者遭遇在物理物件上編寫**的噩夢——程式逆向解碼。dn**段可正向也可逆向測序,但**只能正向解析。研究人員認為,將來的改進版可以將攻擊設計成回文模式。

研究人員承認,除了該曲折又不可靠的過程,他們的概念驗證中還有踩著作弊邊緣的一些抄近道的方式。

他們沒有像真實的黑客那樣利用fqzcomp壓縮程式的現有漏洞,而是直接修改了該程式開源**來插入他們自己的漏洞,供緩衝區溢位使用。但撇開撰寫dna攻擊**來利用他們人為漏洞版本的fqzcomp,研究人員還對常見dna測序軟體做了調查,發現常用程式中存在3個切實的緩衝區溢位漏洞。此類軟體在設計時很多都沒考慮過安全因素,意味著未來的黑客可以在更現實的環境中實施該攻擊,尤其是當更強大的基因測序儀開始分析可以更好儲存漏洞利用**的更大資料塊的時候。

毋庸置疑,基於dna的任何可能的黑客攻擊離我們都還有數年之遙。基因測序裝置主流製造商illumina,在乙份回應華盛頓大學報紙的宣告中稱,「這是一項關於潛在長期風險的有趣研究。我們贊同這項研究的前提,即這不會構成迫在眉睫的威脅,也不是典型的網路安全能力。我們非常警惕,定期對我們的軟體和裝置進行安全評估。我們歡迎任何研究,只要這些研究能圍繞確保dna合成、測序和處理的安全與隱私,建立關於未來框架與指南的對話。」

希普曼說:「讀這篇**的時候我臉上帶笑,因為我覺得這真的很聰明。這是不是我們應該從現在就開始審查的東西呢?」隨著基於dna的資料時代可能即將到來,在dna中植入惡意**的能力就不僅僅是黑客的小把戲了。

在未來的某個時候,當更多資訊儲存在dna中,被頻繁輸入和排序,我們將會慶幸於現在就開始思考這些事情。

重複的DNA序列

所有 dna 由一系列縮寫為 a,c,g 和 t 的核苷酸組成,例如 acgaattccg 在研究 dna 時,識別 dna 中的重複序列有時會對研究非常有幫助。編寫乙個函式來查詢 dna 分子中所有出現超多一次的10個字母長的序列 子串 示例 輸入 s aaaaacccccaaaaacccccca...

DNA序列的編碼

description對於dna 序列 序列中包含a c g 和t 四種字元 我們使用如下方法為它編碼 1 將子字串中的k 個相同字元寫成kx,x 是a c g 和t 四個字元之一 2 如果k 是1,那麼1 要忽略。輸入乙個dna 序列,輸出它的編碼。input 乙個dna 序列,由一串包含a c ...

DNA序列找GC Ratio最高子串行

乙個dna序列由a c g t四個字母的排列組合組成。g和c的比例 定義為gc ratio 是序列中g和c兩個字母的總的出現次數除以總的字母數目 也就是序列長度 在基因工程中,這個比例非常重要。因為高的gc ratio可能是基因的起始點。給定乙個很長的dna序列,以及要求的最小子序列長度,研究人員經...