Google線上安全博客最新文章介紹Gmail垃圾郵件篩選器全新升級,Google稱此是近年來規(guī)模最大的防御升級之一。
Gmail、YouTube、Google Play等系統(tǒng)依靠文本分類模型識別有害內(nèi)容,包括網(wǎng)絡(luò)釣魚攻擊、不當評論和詐騙。不過,過去機器學(xué)習(xí)模型難將有害文本內(nèi)容分類出來,因為不法分子會使用同形字、隱形字符以及關(guān)鍵字填充等手法,以所謂adversarial text manipulation嘗試繞過篩選器。
為了幫助文本分類器發(fā)揮效用,Google開發(fā)一種開源、多語言文本矢量化工具RETVec(Resilient&Efficient Text Vectorizer),協(xié)助模型實現(xiàn)最先進的分類性能并大幅降低運算成本,在服務(wù)器端和設(shè)備上創(chuàng)建更具彈性和性能的文本分類器。
過去一年,Google內(nèi)部對RETVec進行廣泛測試以評估實用性,發(fā)現(xiàn)它對于安全和防濫用的應(yīng)用程序非常有效,特別是用RETVec取代Gmail垃圾郵件篩選器之前的文本矢量化工具,使Gmail能將垃圾郵件偵測率較基準提高38%,并將誤報率降低19.4%。此外,使用RETVec將模型的TPU(Tensor Processing Unit)使用率降低83%,使RETVec部署成為近年來最大的防御升級之一。
RETVec使用非常輕量的字詞嵌入模型(-200K參數(shù))來改進,使Google能在相同或更好的性能下減少Transformer模型的大小,能夠以網(wǎng)絡(luò)和內(nèi)存有效方式在主機和TPU之間分割運算。
(首圖來源:Google Blog)