人在干,天在看,云在算。云計算越發(fā)展,云安全越重要。故事得從小小的芯片講起。一家以色列的芯片公司,名叫Annapurna Labs,以喜馬拉雅山脈的最高峰——安娜普爾納峰命名。兩位創(chuàng)始人Billy和Nafea曾想在創(chuàng)業(yè)之前攀登此峰,挑戰(zhàn)人生極限。結果,造化弄人,沒登上此峰,卻登上了芯片界的險峰,換了個角度實現(xiàn)人生理想。日后,這家智能網(wǎng)卡起家的公司,被亞馬遜云技公(AWS)以3.5億美元高價收購。這場收購,買到了定制化芯片(ASIC)的能力。此時,AWS公司副總裁技術大神AnthonyLiguori(安東尼·利古里)出場。為Nitrosystem打下牢固的基礎,此處按下另表。自此,AWS芯片實力大增。云計算走到今天,為了突破創(chuàng)新,不得不向芯片問路。這背后的本質是,系統(tǒng)架構創(chuàng)新。系統(tǒng)架構是什么?芯片以及配套的軟硬件。這一次創(chuàng)新,帶來的機會是:
誰能成為下一代數(shù)據(jù)中心虛擬化標準架構的“王者”?
1
處在相同段位的技術領袖,判斷總是出奇的相似。2016年,阿里云彈性計算產品線負責人張獻濤博士低調地往返于北京和杭州兩地多次,他在勸說一位芯片主架構師加入阿里云。起初,人家不來。原因也很清楚,2016年誰會相信互聯(lián)網(wǎng)公司需要芯片技術。也許是三顧茅廬的誠意,也許是前景,這位生于1979年的主架構師被勸動了。張獻濤博士當時的原話是:“你在傳統(tǒng)公司很多年了,理解不透互聯(lián)網(wǎng)公司的決心,這件事情前人絕對沒做過,它可以改變云計算里面最核心的技術?!毙叛龅墓?,最是感召。隨后,多位重量級芯片技術大拿前后加入阿里云。他們眼睛里面的光芒,從何而來?這要從虛擬化技術的過往講起。2004年,張獻濤博士在讀,專攻虛擬化技術。當時,全球研究同領域的人不多,可能加起來不到一百人。擇業(yè)范圍太小了,張博士也擔心畢業(yè)之后能不能找到工作。彼時,著名高校和前沿公司在研究虛擬化,斯坦福大學、劍橋大學,微軟公司、英特爾公司。問題是,沒有太多的地方用。1997年,斯坦福大學背景的教授創(chuàng)立VMWare公司,成了虛擬化技術的商業(yè)鼻祖,但它主要在PC上運行,這和云計算數(shù)據(jù)中心需要的虛擬化技術,大有不同?;蛘哒f,云計算之前的虛擬化技術,可以被稱為傳統(tǒng)虛擬技術。七八年轉瞬而過,2005年,英特爾和AMD也看出來虛擬化技術的重要性了,運功發(fā)力推出了VT-x和VT-d,推了一把虛擬化技術的進程。阿里云成立的時候,思路也很清晰,必須拋棄那些不適用于云計算的虛擬化技術,才能做云計算的領頭羊。所以,阿里云自研虛擬化就從深度定制化和產品化的開源虛擬化軟件Xen和KVM開始。2014年是張獻濤博士在英特爾的最后一年。這一年,距離他開始博士研究,已經(jīng)過去了整整十年。這十年,他全神貫注研究虛擬化。這一年,他加入阿里云。云計算實現(xiàn)了虛擬化技術的躍遷,大家突然意識到虛擬化技術“值錢”了。但是,傳統(tǒng)技術的缺陷明顯,性能損耗,隔離性差,這些依然在給云安全以重錘。沒有云計算廠商不重視安全,安全是隨著技術發(fā)展動態(tài)變化的。所謂魔高一尺,道高一丈。但是,很多人對安全有偏見,觀點“看似挺對,其實不對”:“現(xiàn)在才講安全,你以前的產品是不是都不安全?”實際上,阿里云安全團隊,獨立于集團的安全部門,是一支幾千人的團隊,只干一件事,安全。張獻濤博士坦言:“只要是個軟件,都會有安全相關的bug或者漏洞,所以,沒有絕對安全,只有更安全?!苯鉀Q安全問題,不是“堆”多少人力,而是徹底解決傳統(tǒng)技術的“缺陷”,安全的防線才能拔高。用芯片解決缺陷是一個正確的方向,一開始只有AWS和阿里云兩大巨頭死死盯著這條路。多年后,回頭再看AWS的芯片收購案,抄了研發(fā)的近道,每年都為AWS省下大筆資金。省的,就是賺的。但是,阿里云的技術團隊不會走“重點技術采購于別家”這條路。說得再實際一點,體量越大的廠商,越是黑客眼里的唐僧肉。“體量”逼著阿里云拿出巨大的決心從架構創(chuàng)新做起,一舉解決整個一代云計算技術面臨的痛點。先烈們說:“勞資,打的就是精銳。”阿里云說:“我們,干的就是自研?!?br/>2016年的時候,張獻濤博士天天都在思考:如何通過架構創(chuàng)新解決傳統(tǒng)虛擬化在云計算場景中的問題?只有把虛擬技術想透徹的人,才能從根本上解決虛擬化的安全問題。誰搞定了云計算架構創(chuàng)新,誰將在云場景中收益巨大。
2
2017年10月,阿里云神龍架構發(fā)布。2017年11月,AWS Nitro system發(fā)布。全球兩家頂級云廠商,不謀而合地打響了云計算芯片創(chuàng)新的全球第一槍。張獻濤博士談道:“神龍芯片,引領了下一代數(shù)據(jù)中心的虛擬化標準架構?!睆陌踩慕嵌戎v,有了神龍芯片,阿里云的虛擬化安全就引領了一個時代。怎么做到的?第一,用芯片實現(xiàn)隔離。處理器和內存隔離,有兩個層面:安全,性能。張獻濤博士談道:“所謂性能的隔離,是一臺物理機上有兩個虛擬機的時候,互相不干擾,性能隔離做得不好,性能輸出會忽高忽低,這樣不能服務于企業(yè)客戶。這也解釋了為什么阿里云2017年推出了企業(yè)級實例,做到完全隔離?!卑⒗镌?017年的企業(yè)級實例產品和神龍前后腳推出,這不是巧合,是一起解決“不得不面對”的問題。在技術早期階段,安全常常有讓步于性能的無奈?!靶阅堋睂χ鞍踩焙穑骸澳隳懿荒茏屛蚁葘崿F(xiàn)了,再考慮你?!卑踩卮鸬溃骸靶邪。凑l也離不了我。你不重視我,我就讓客戶難受?!?br/>第二,用芯片解決出入口漏洞。
就像防賊要防住門窗一樣,IO鏈路上是最容易出安全漏洞的。傳統(tǒng)的虛擬化相關軟件在那個時間點上,完完全全過時了。神龍芯片大刀闊斧,把該砍掉的全砍掉,所有IO鏈路完全用硬件實現(xiàn)?,F(xiàn)在,網(wǎng)絡和存儲的IO都做到了用單獨的硬件隊列在硬件中去實現(xiàn)。這樣,硬件上A和B兩個虛擬機的數(shù)據(jù)鏈路做到了完全隔離。此時,硬件實現(xiàn)了軟件要做的事情,硬件的攻擊面小于軟件的,所以,更安全了。另外,阿里云把CPU、內存的虛擬化做得極其精簡。張獻濤博士說:“所謂極其精簡,(就是)我們知道軟件的安全漏洞和它的代碼行數(shù)一定是成正比的,所以,會審查每一行代碼的安全問題。”
近幾年,主流公有云廠商將安全能力列為平臺基礎能力,大舉投入。本質是,云計算今非昔比,“性能”履行當年對“安全”的承諾。性能解決了,更多兵力要劃撥到安全的戰(zhàn)場上去。Gartner發(fā)布2021年需深挖的9項重要戰(zhàn)略科技趨勢,其中之一是加密計算,到2025年將有一半的大型企業(yè)使用。阿里云對加密計算的研究,得從神龍芯片的研發(fā)時間開始推算。因為神龍芯片一石三鳥,為云安全解決了三個問題:
一個是性能隔離,
一個是數(shù)據(jù)鏈路隔離,
一個是建立獨立安全屋。
簡單理解,獨立安全屋就是加密計算。
加密計算是創(chuàng)造一個隔離環(huán)境,誰也進不來,管理員(阿里云)也不行。加密計算靠的是硬件(處理器),把代碼和數(shù)據(jù)放到一個硬件保護起來的安全環(huán)境中去計算。
前文也提了,云計算走到今天,為突破創(chuàng)新,不得不聯(lián)手芯片。阿里云都這么努力,英特爾這種老牌芯片公司會吃閑飯嗎?加密計算技術有很多種,其中英特爾公司的SGX(Software Guard Extension,指令集擴展)尤為出名。
英特爾推出SGX這項技術,可以追溯到2004年。
十年后,SGX成為了系統(tǒng)安全領域的重大進展。
當下,SGX是較為成熟的加密計算技術,阿里云也是最早支持SGX能力的云廠商之一。SGX能夠在計算平臺上提供一個可信的隔離空間,保障用戶關鍵代碼和數(shù)據(jù)的機密性和完整性。
SGX出貨量肯定很大,因為捆在英特爾CPU里面了。
SGX的原理是,提供了一系列的擴展指令集,核心就是CPU運行的時候可以切換到Enclave的SGX模式。
切到這個模式里之后,當CPU去內存里取指令的時候,是把加密過的指令取到CPU里解密。
加密內存中的數(shù)據(jù),加密后的“密文”只有在處理器里才會被解密成“明文”。
在CPU里完成這個解密,再完成這個指令的執(zhí)行。
處理器和內存都參與了加密,所以,這個運算過程在外部看來永遠是一個密文。要么打破內存加密,要么打破芯片處理器加密,黑客攻擊難度都很大。
加密計算用戶可以讓數(shù)據(jù)的計算在保險柜中進行,實現(xiàn)運行數(shù)據(jù)的“可用不可見”。SGX2.0帶來的好消息是,英特爾SGX技術迭代了,到了這一代,Ice Lake(第三代英特爾?至強?可擴展處理器)可在多路服務器上支持SGX。
SGX2.0也是一個突破性的技術,從根本上解決了企業(yè)對于機器學習、人工智能等GB級以上數(shù)據(jù)量的高效運算技術需求,為金融互聯(lián)網(wǎng)等使用場景,提供了更高安全等級數(shù)據(jù)保護的支持。
或者說,目前,SGX2.0是真實場景、大數(shù)據(jù)、大規(guī)模情況下進行隱私計算唯一可實踐的技術路徑。3
有用的數(shù)據(jù),從一出生就需要保護。
所以,按數(shù)據(jù)生命周期的階段來劃分加密計算,有三位鏢師:
鏢師一,保護存儲中的數(shù)據(jù),數(shù)據(jù)加密;
鏢師二,保護傳輸中的數(shù)據(jù),加密協(xié)議;
鏢師三,保護使用中的數(shù)據(jù),加密計算。其中,鏢師三最難,保護使用中的數(shù)據(jù),需用兩部《兵法》。
《兵法一》出自英特爾,SGX2.0+Enclave。
《兵法二》出自阿里云自研虛擬化Enclave。Enclave,中文譯為“飛地”,簡單理解就是大空間里劃出來一個小空間。
Enclave是一個隔離環(huán)境,可以理解為,虛擬機中的虛擬機。
把云計算比喻為一座宏偉大廈,從地基往上的每一層樓,每一個房間,都要安全,Enclave就好比房間里面隔離出來的保險柜。
(SGX支持虛擬化技術可以再虛擬出一個vSGX,也就是,把物理加密計算能力“給”虛擬機。vSGX通過虛擬化實現(xiàn)了在虛擬機層面基于SGX技術的Enclave。)
《兵法一》
是“硬件”SGX+Enclave技術。
用硬件安全強制保障軟件安全,最終達到保障虛擬化的安全的目的。這里的硬件,指的是英特爾的硬件。
《兵法二》
是用神龍芯片構建了一個安全的微型服務器,通過芯片的隔離技術,構建了一個安全的執(zhí)行環(huán)境。
可以這樣說,沒有第三代神龍架構,就不會有阿里云自研虛擬化Enclave這種加密計算技術。
原理是,在虛擬機創(chuàng)建了Enclave隔離環(huán)境后,用本地加密通道對隔離環(huán)境下達指令和應用,提供全隔離、高可信的計算環(huán)境,隔離存儲設備、可交互環(huán)境和外部網(wǎng)絡連接。SGX環(huán)境是一個硬件級別的環(huán)境,阿里云盡管是在硬件上跑的系統(tǒng),但是沒有權限看到里面的東西,所以整個運行環(huán)境對阿里云來說不在一個樓層里,相當于阿里云在三樓,SGX是在地下室操作。
所以,永遠不用擔心數(shù)據(jù)會被云廠商偷窺。
兩部《兵法》理念相同,用不同的底層軟硬件技術實現(xiàn)。
阿里云是業(yè)界最早實現(xiàn)加密計算(同時支持基于硬件及虛擬化)與可信計算的云廠商,這些能力內置在阿里云最新發(fā)布的第七代ECS云服務器里。
此外,第七代ECS云服務不僅支持加密計算,還融合了可信計算,阿里云也是業(yè)界最早同時提供這兩種原生計算安全的廠商。加密計算涉及硬件、BIOS、操作系統(tǒng)、虛擬化、管控軟件、SDK、遠程證明服務等組件的開發(fā)與改造,技術難點很多,最難點在于虛擬化技術需要與阿里云彈性計算的神龍架構融合。
這背后有三支攻堅小組:安全小組、虛擬化小組、神龍軟硬一體化小組。其中,安全小組里遍地是高(A)手(+)和高(a)高(li)手(xing)。
黑客見狀,高聲大呼:放棄幻想,趁早改行。
可以預見,加密計算作為一種基礎技術,將作為運算環(huán)境必不可少的一部分,存在于越來越多的計算節(jié)點上,配套的加密計算應用也會應運而生,將會給云計算帶來新一輪大發(fā)展。
安危他日終須仗,甘苦來時要共嘗,技術發(fā)展和安全的關系就是這樣。
阿里云用芯片一小步,成就云安全一大步。
最后,補充一個問題:神龍芯片的本質是什么?
正是當今資本追捧,軟硬一體,深度協(xié)同,使用芯片對數(shù)據(jù)面加速的三好學生優(yōu)秀班干部——DPU。