摘要:阿里云基因數據服務不斷提升極致彈性的計算能力,和大規模并行處理能力,以及海量高速存儲來幫助基因公司快速自動化處理每天幾十上百的下機數據,并產通過標準產出高質量的變異數據。
摘要:?一家大型基因測序功能公司每日會產生 10TB 到 100TB 的下機數據,大數據生信分析平臺需要達到 PB 級別的數據處理能力。這背后是生物科技和計算機科技的雙向支撐:測序應用從科研逐步走向臨床應用,計算模式從離線向在線演進,交付效率越來越重要。
作者李鵬,原文首發于InfoQ,《容器混合云,Kubernetes 助力基因分析》
引言James Watson 和 Francis Crick 于 1953 年發現了 DNA 的雙螺旋結構,從此揭開了物種進化和遺傳的神秘面紗,開啟了人類對數字化遺傳的認知,但是人類基因奧秘卻是一點點被讀懂的。
1956 年,一則癌癥和染色體相關性的發現令整個癌癥研究界震動:慢性骨髓性白血病(CML)患者的第 22 號染色體,比一般然明顯短很多。二十余年后,學者們發現,9 號染色體的 Abl 基因,與 22 號染色體的 BCR 基因連到了一塊,交錯易位產生了一條 BCR-Abl 融合基因。BCR-Abl 蛋白一直處于活躍狀態且不受控制,引發不受控的細胞分裂,從而導致癌癥。
也就是說,只要細胞表達 BCR-Abl 蛋白,就有血癌風險。美國著手深入研究,并成功推出了治療慢性骨髓性白血病的新藥。這,就是格列衛,也是去年《我不是藥神》中被我們熟知的‘高價藥’。
在格列衛誕生前,只有 30% 的慢性骨髓性白血病患者能在確診后活過 5 年。格列衛將這一數字從 30% 提高到了 89%,且在 5 年后,依舊有 98% 的患者取得了血液學上的完全緩解。為此,它也被列入了世界衛生組織的基本藥物標準清單,被認為是醫療系統中“最為有效、最為安全,滿足最重大需求”的基本藥物之一。
容器混合云如何應對基因測序的 IT 挑戰基因測序在血液腫瘤領域應用的越來越廣泛。根據病人的診斷結果, 血液腫瘤專科醫生會選擇相應的檢查,比如 PCR 結合實時熒光探針技術, 來檢測測 BCR-Abl 融合基因, 以診斷慢性骨髓性白血病, 也可以通過二代測序方式,SEGF(Single-end Gene Fusion)能夠通過單端 NGS 測序數據檢測復雜的基因融合類型。
在另一面,無創產檢唐氏/愛德華式篩查,近年來以高準確率和對胎兒的低風險,越來越受到國內年輕產婦的歡迎。基因公司每年都完成幾十萬例的 NIPT 檢查,每一例的 NIPT 涉及到數百 MB+ 的數據處理,存儲和報告生成。一家大型基因測序功能公司每日會產生 10TB 到 100TB 的下機數據,大數據生信分析平臺需要達到 PB 級別的數據處理能力。這背后是生物科技和計算機科技的雙向支撐:測序應用從科研逐步走向臨床應用,計算模式從離線向在線演進,交付效率越來越重要。
基因計算面臨以下幾方面挑戰:
1.數據存儲:數據增長快,存儲費用高,管理困難;長期保存數據可靠性難以保障;需要尋求低成本大數據量的數據壓縮方式;元數據管理混亂,數據清理困難。
2.分發共享:海量數據需要快速、安全的分發到國內多地及海外;傳統硬盤寄送方式周期長,可靠性低;多地中心數據需要共享訪問。
3.計算分析:批量樣本處理時間長,資源需求峰谷明顯,難以規劃;大規模樣本的數據挖掘需要海量計算資源,本地集群難以滿足;計算工作1. 3. 流流程遷移困難、線上線下調度困難、跨地域管理困難;線下彈性能力差,按需計算需求。
4.安全合規:基因數據安全隱私要求極高;自建數據中心安全防護能力不足;數據合約(區塊鏈);RAM 子賬號支持。
而這樣看來一套完備架構方案則是必不可少的。與傳統高性能計算相比,按需切分任務的需求,自動從云中申請資源,自動伸縮能力達到最小化資源持有成本,90% 以上的資源使用率,用完后自動返還計算資源。最大化資源的使用效率,最低單樣本的處理成本,最快速的完成大批量樣本的處理。隨著基因測序業務增長,自動完成線下資源使用,和線上資源擴容。高速內網帶寬,和高吞吐的存儲,和幾乎無限的存儲空間。
基因計算不同于常規的計算,對海量數據計算和存儲能力都提出了很高的要求。主要通過容器計算的自動伸縮特性和阿里云 ECS 的自動伸縮能力的打通,可以大規模彈性調度云上的計算資源。通過對基因數據的合理切分,實現大規模的并行計算同時處理 TB 級別的樣本數據。通過按需獲取的計算能力,以及高吞吐的對象存儲的使用,大幅降低了計算資源持有的成本和單個樣本的處理成本。
整體技術架構是云原生容器混合云,云上云下資源一體,跨地域集群統一管理。作為主要 Player,容器技術在數據分拆,數據質量控制,Call 變異提供了標準化流程化、加速、彈性、鑒權、觀測、度量等能力,在另外一方面,高價值挖掘需要借助容器化的機器學習平臺和并行框架對基因、蛋白質、醫療數據完成大規模線性代數計算來建立模型,從而使精準醫療能力成為現實。
基因工程中的關鍵問題及解決方案數據遷移與傳輸
數據遷移、數據拆分階段百萬小文件的讀取對底層的文件系統壓力,通過避免不必要小文件的讀寫提高樣本的處理效率。 通過數據中心與阿里云的專線連接,實現高吞吐低延遲的數據上云以及與工作流結合的上云、校驗、檢測方式。而最終需要達成的目標是:在短時間內完成數十 TB 級數據的加密搬遷,確保數據傳輸客戶端的高性能與安全性,實現并發傳輸、斷點續傳,且保有完善的訪問授權控制。
基因計算典型任務:增強型工作流
基因計算的典型特征就是數據分批計算,需要按照特定步驟先后依次完成。將該問題抽象后,即需要申明式工作流定義 AGS(AlibabaCloud Genomics Service) workflow。
其工作流的特點是:多層次,有向無環圖。科研大工作流 1000-5000+ 深度的 DAG,需要準確的流程狀態監控和高度的流程穩定性。簡單流程從任意步驟重現啟動 ,失敗步驟可以自動完成重試和繼續,定時任務,通知,日志,審計,查詢,統一操作入口 CLI/UI 。
我們采用的方案是:
1.簡單 YAML 申明式定義,多層次,有向無環圖, 復雜依賴支持, 任務自動分拆,自動并行化;
2.云原生,與社區 Argo 完全兼容的增強性 Workflow 定義;
3.實時資源統計,監控集成云監控,云日志 SLS 集成, 審計集成, 定時任務;
4.統一操作入口 ags-cli 與 Kubectl 集成;
5.阿里云存儲卷申明式支持,NAS,OSS,CloudDisk, 緩存加速支持。
云上云下資源的統一調度
通過跨越 IDC 和云上可用區的混合云 ACK 集群實現計算資源的統一調度和數據的云端匯聚。自動化,流程化上云數據,和后續的數據處理流程,形成 24 小時內完成批次下機數據的本地, 上云,云端處理和報告生成。按需彈性提供計算節點或者無服務化計算資源,形成按需計算能力,處理突發分析任務。我所帶領的阿里云基因數據服務團隊努力構建更具彈性的容器化集群,分鐘級數百節點自動伸縮能力和分鐘級數千輕量容器拉起的 Serverless 能力, 通過提高并行度來提高內網帶寬的利用率,最終提高整體數據吞吐率,通過 NAS 客戶端和服務端的 TCP 優化來提高 IO 讀寫速度,通過為 OSS 增加緩存層和分布式的緩存來實現對象存儲讀取加速等等。
還有很多問題,篇幅原因在此不一一展開:如何進行基因數據管理、最優化單位數據處理成本、采用批量計算的方式進行對樣本分析、怎樣使得基因數據處理安全及跨組織安全分享等等。
生命科學和精準醫學應用,未來已來NovaSeq 測序儀帶來了低成本(100$/WGS)高產出(6TB 通量)的二代測序方案,大量 NovaSeq 的使用為基因測序公司每天產出的幾十 TB 數據,這就要求大量的算力來分拆和發現變異,以及需要大量的存儲來保存原始數據和變異數據。阿里云基因數據服務不斷提升極致彈性的計算能力,和大規模并行處理能力,以及海量高速存儲來幫助基因公司快速自動化處理每天幾十上百 TB 的下機數據,并產通過 GATK 標準產出高質量的變異數據。
以 PacBio 和 Nanopore 為代表的三代測序的出現,超過 30K 到數百 K 的長讀,和 20GB 到 15TB 的大通量產出,長讀和數據量對數據比對,分拆,發現變異帶來了更大的算力需要和高 IO 吞吐的需求,對基因計算過程中優化基因分析流程,拆分數據,按需調度大量計算資源,提供超高的 IO 吞吐帶來了更大的挑戰。
解碼未知,丈量生命。科技的每一小步,都會成為人類前行的一大步。
本文作者:李鵬(Eric Li),阿里云資深架構師,數據科學家,美國 FDA2018 精準醫療大賽Top2 Winner ,金融/生物計算行業解決方案專家,專注于基于 Kubernetes 的容器產品開發和銀行,生信行業的生產落地。在加入阿里云之前,曾在 IBM 擔任 Watson 數據服務容器平臺首席架構師,機器學習平臺架構師,IBM 2015 Spark 全球大賽金獎獲得者,帶領多個大型開發項目,涵蓋云計算,數據庫性能工具、分布式架構、生物計算,大數據和機器學習。
閱讀原文
本文為云棲社區原創內容,未經允許不得轉載。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/11491.html
摘要:華為生科云解決方案,由工作流彈性計算云對象云存儲線下數據寄送服務四部分組成,為客戶提供端到端的解決方案,助力中國科研數據分析,演繹了生物與計算的完美結合。 隨著互聯網的普及和技術的發展,大數據和云計算已經滲透在人們的生活的各個方面,在金融,零售,能源,交通等領域已經得到廣泛應用。而對于生物信息來說,生物的DNA、基因序列、生物芯片等無時無刻不產生新的數據;比如說,DNA測序每年能夠產生大約1...
摘要:華為云華為云在云原生這場游戲中,最具競爭力的玩家之一。年,金山云在云原生領域推出了三款重磅產品星曜裸金屬服務器云服務器和云盤。在線上智博會上,浪潮云發布了經過全新迭代升級的浪潮云,進一步提升平臺云原生服務能力。面對數字時代復雜系統的不確定性,傳統的 IT 應用架構研發交付周期長、維護成本高、創新升級難,煙囪式架構,開放性差、組件復用度低,這些都成為了企業業務快速增長的瓶頸。而云原生以其敏捷、...
摘要:年底首次開啟阿里云容器服務公測年月正式商業化年月成為國內唯一合作伙伴并推出專有云企業版,月實現產品國際化。阿里云容器服務為增加了阿里云云盤和等分布式存儲服務支持。阿里云容器服務為此進一步提升了易用性,降低了部署管理和應用開發門檻。 摘要: 作為容器編排系統的兩大流派, Kubernetes和Swarm的重要性不言而喻。融合了兩大高性能集成的阿里云容器服務,不僅可以降低50%的基礎架構成...
閱讀 3564·2021-09-24 09:48
閱讀 1087·2021-09-10 10:51
閱讀 3267·2019-08-30 13:03
閱讀 3315·2019-08-30 12:51
閱讀 1387·2019-08-30 11:22
閱讀 1051·2019-08-29 18:38
閱讀 2034·2019-08-29 16:41
閱讀 3182·2019-08-29 15:32