作為支持基因組學(xué)(Genomics)發(fā)展的實(shí)際作為,微軟在GitHub上發(fā)布了多個(gè)相關(guān)開源項(xiàng)目,包括在Azure上支持科學(xué)用開源工作流程管理系統(tǒng)Cromwell,以及生物信息工具存儲(chǔ)庫(kù)Bioconductor,并且發(fā)布基因組學(xué)用筆記本Genomics Notebook,另外,微軟也持續(xù)在Azure開放資料集平臺(tái),添加更多的基因組學(xué)公共資料集,供相關(guān)人員免費(fèi)取用。
DNA定序技術(shù)推動(dòng)了基因組學(xué)的研究進(jìn)展,微軟提到,在未來(lái)10年,基因組會(huì)成為臨床決策,以及醫(yī)療保健服務(wù)的核心,而基因組學(xué)資料運(yùn)算需求,將呈現(xiàn)爆炸性增長(zhǎng),相關(guān)的應(yīng)用需要依賴云計(jì)算的敏捷性、可擴(kuò)展存儲(chǔ)與運(yùn)算能力,還有資料安全性的支持。
微軟持續(xù)在基因組學(xué)領(lǐng)域耕耘,對(duì)社群做出貢獻(xiàn),現(xiàn)在于GitHub開源Cromwell on Azure項(xiàng)目,Cromwell是一個(gè)用于科學(xué)的開源工作流程管理系統(tǒng),而通過Cromwell on Azure項(xiàng)目,科學(xué)家可以方便地運(yùn)用Azure運(yùn)算能力,以超大規(guī)模計(jì)算資源,加速基因研究,Cromwell能夠調(diào)度Azure Batch,協(xié)調(diào)動(dòng)態(tài)計(jì)算資源,并且集成用戶的Azure Blob資料存儲(chǔ),以方便訪問資料進(jìn)行高性能科學(xué)運(yùn)算。
而微軟也在Azure上,提供方便的生物信息工具Bioconductor,Bioconductor是用R語(yǔ)言開發(fā)的可擴(kuò)展統(tǒng)計(jì)和圖形組件存儲(chǔ)庫(kù),可用于分析高通量基因組與生物醫(yī)學(xué)資料,微軟與Bioconductor核心團(tuán)隊(duì)合作,在Azure提供Bioconductor組件存儲(chǔ)庫(kù)支持。
現(xiàn)在,通過Docker Hub上的微軟容器注冊(cè)表,部署預(yù)先配置的Bioconductor Docker鏡像文件,生物信息科學(xué)家和資料科學(xué)家,就能夠快速使用Bioconductor組件,此外,用戶還能取用Azure虛擬機(jī)模板,部署預(yù)先配置的基因組資料科學(xué)虛擬機(jī),進(jìn)行探索、分析和機(jī)器學(xué)習(xí)模型開發(fā)。
另外,微軟也將Azure上的Jupyter Notebook開發(fā)為Genomics Notebook,專門提供基因組研究使用。Jupyter Notebook能夠讓資料科學(xué)家,使用R或是Python進(jìn)行資料分析,而生物信息研究人員,也越來(lái)越依賴筆記本執(zhí)行基因組資料分析,并利用臨床、基因組以及EMR等資料,構(gòu)建機(jī)器學(xué)習(xí)模型。
微軟的Genomics Notebook,提供方便的預(yù)配置,用戶可以在Azure工作區(qū)啟動(dòng)Genomics Notebook,使用預(yù)配置的功能,進(jìn)行基因組變異檢測(cè)、過濾、注釋和轉(zhuǎn)換基因組,并且構(gòu)建機(jī)器學(xué)習(xí)模型。
Azure開放資料集平臺(tái)上的基因組資料湖,提供更多公開可用的基因組資料集,現(xiàn)在包括醫(yī)療保健、制藥和生命科學(xué)領(lǐng)域的用戶,可以在Azure上免費(fèi)訪問這些資料集,并且把這些資料,集成到分析工作流程中使用。