×
199IT數據社群:超1.6萬會員的選擇,超3000個數據主題,僅199元/年。
點擊加入
關閉

隱私計算DataTrust:從產品需求到工程架構實踐(連載2)

本文來源:數智化轉型俱樂部 作者:?資深數據人原攀峰
繼上期介紹了新監管形勢下的隱私技術及數據共享合規設計的思考,本期將接著為大家講解,國內唯一一個獲得工信部三項隱私計算測評的產品DataTrust,在隱私計算領域從產品需求到工程架構的實踐之路。

隨著數據作為第五大生產要素被提出,“數據流通”的社會價值已形成廣泛共識,由于行業背景、數據現狀、研發能力等方面的差異性,不同行業企業對于“數據流通”的場景和訴求也不盡相同:

  • 數據安全要求不同:有些企業相信中立的第三方,能接受數據安全上傳至受信的第三方平臺的方案;有些企業對數據保護較敏感,希望原始數據不流出自有網絡和自有機器。
  • 數據融合計算模式不同:有些場景需要統計分析的隱私計算能力,如雙方數據求交后做SUM/COUNT等計算,或者雙方聯合SQL計算,最終得到統計分析結果;有些場景需要機器學習的隱私計算能力,如雙方聯合完成模型訓練、模型預測,最終得到算法知識結果。
  • 數據的云化程度不同:一些企業大部分業務系統已經上云,數據從產生到分析的全鏈路都在云平臺完成,因此這類客戶需要云上的解決方案來實現數據流通;還有很多企業的主要業務系統以及業務數據仍在自有IDC機房生成和加工處理,他們同樣也有數據流通的需求場景。
  • 數據計算和存儲系統不同:對于一些數字化轉型較早的企業,往往有完備的大數據計算和存儲系統,如自建Hadoop、云上EMR、數據湖等,有現成的分布式計算和存儲能力;還有一些企業,還沒有完整的數據倉庫體系,數據還保留在MySQL、PostgreSQL等業務數據庫中,這種情況下所能提供的計算算力也比較有限。
  • 數據所處的網絡環境不同:隱私計算場景下,不同企業的數據存在于不同的網絡環境內,企業內的數據處理系統一般是不對外提供服務的,因此大部分場景下多方之間的隱私計算過程需要通過公網傳輸數據;當然,也有如金融類企業愿意提供專線用于數據傳輸服務。

通過分析這些需求場景,我們不難得出以下幾點結論:

  • 隱私計算平臺是典型的多學科交叉領域,涉及工程、算法、密碼、硬件等多個方向,涉及統計分析、機器學習兩大類應用場景,從廣度和深度上系統架構的復雜度都很高,需要足夠靈活的分層、分模塊設計。
  • 針對不同類型的場景和安全訴求,需要基于不同的隱私計算技術來提供解決方案,甚至需要同時結合多種隱私計算技術,形成一套解決方案來解決某一具體場景的問題。
  • 安全合規是隱私計算技術和產品的重要依據,因此,隱私計算平臺需要針對不同類型的數據融合計算場景,提供不同的隱私保護技術手段。
  • 不同客戶的數據分散在不同網絡環境,大數據生態系統的現狀也會千差萬別,因此隱私計算平臺對數據源、計算引擎、傳輸通道等組件的異構能力訴求是必然的,對云上部署、獨立部署的能力也是基本要求。

DataTrust產品定位是通用的隱私計算產品,因此DataTrust工程技術架構能夠同時支持多種隱私計算技術,嚴格遵循隱私計算安全標準,按照模塊插件化的設計思路,適用于多種異構的計算、存儲、網絡環境,支持云上部署、獨立部署等輸出形態。

隱私增強計算技術

  • 可信執行環境(Trusted Execution Environment,TEE)

TEE是硬件中的一個獨立的安全區域,由硬件來保證TEE中代碼和數據的機密性和完整性。也就是說,TEE是硬件服務提供商應用硬件在現實世界中構造的安全計算環境。應用TEE實現隱私增強計算的過程可以通過下圖描述。

步驟1:各個參與方將自己的數據通過安全鏈路傳輸給TEE。

步驟2:TEE在保證機密性和完整性的條件下完成計算任務。

步驟3:TEE通過安全鏈路將計算結果發送給各個參與方。

  • 安全多方計算(Secure Multi-Party Computation,MPC)

MPC是密碼學中的定義,在無可信計算方的情況下,多個參與方各自持有秘密輸入,并可完成對某個函數的計算,但每個參與方最終只能得到計算結果和能從自己輸入和計算結果中推出的信息,其他信息均可得到保護。安全多方計算的定義可以通過下圖描述。

  • 聯邦學習(Federated Learning,FL)

聯邦學習是一種多個參與方在保證各自原始私有數據不出數據方定義的私有邊界的前提下,協作完成某項機器學習任務的機器學習模式。根據隱私安全訴求與訓練效率的不同,可以通過MPC、同態加密(Homomorphic Encryption,HE)、差分隱私(定義見下)等多種方式實現聯邦學習。

  • 差分隱私(Differential Privacy,DP)

DP是一種基于對數據引入隨機擾動,并從理論層面度量隨機擾動所帶來的隱私保護程度的隱私保護方法。根據隨機擾動方式的不同,DP分為在原始數據層面進行隨機擾動的本地差分隱私(Local Differential Privacy,LDP)和在計算結果層面進行隨機擾動的中心差分隱私(Central Differential Privacy,CDP)。

以上幾種常用的隱私計算技術,從工程架構角度可以劃分為兩類:

  • 中心化的計算模式:即可信執行環境(TEE),在這種模式下,各參與方信任中立第三方,把原始數據安全加密后上傳到TEE環境,并進行后鏈路的統計分析、機器學習等。涉及的技術領域除了TEE,還需要輔助RSA、AES等加密技術手段。
  • 去中心化的計算模式:即安全多方計算(MPC)、聯邦學習(FL)等,在這些模式下,各參與方不愿意把原始數據給到任何一方,包括任何第三方,各參與方按照多方計算的協議進行本地安全計算,傳輸協議數據、中間參數數據,最終完成聯合的統計分析、機器學習等。需要特別說明的是,在去中心化的多方安全計算過程中,還是不可避免的需要有一個協調方的角色負責雙方計算過程的協調、協議公共參數下發等過程,實際落地中,這個協調方可以由某一個參與方來承擔,也可以由云平臺、第三方來承擔。涉及的技術領域除了MPC、FL,還需要輔助同態加密(HE)、差分隱私(DP)等技術。

DataTrust在工程架構設計階段,抽象出“協調方”的角色,既能夠在中心化場景下承擔任務協調與中心化可信計算的職責,又能夠在去中心化場景下承擔多個計算方之間的任務協調職責,從而最終形成一套統一的技術架構支持不同類型的隱私計算技術,在安全性和架構統一性上取得了很好的平衡。在此基礎上,進一步按照模塊組件化設計,能夠支持靈活的部署形態,具備各種異構環境下輸出的能力。

DataTrust工程架構設計

基于以上思考,DataTrust隱私計算平臺從功能模塊上設計包含兩個模塊:

  • 云上安全協調中心(Cloud Security Coordination Center,簡稱CSCC):以SaaS化服務部署在阿里云公有云或專有云,亦可獨立化部署在客戶私網環境,承擔LSCC之間的任務協調調度、任務下發等協調性工作,同時還提供中心化的數據安全計算能力(即TEE可信執行環境)。
  • 本地安全計算中心(Local Security Computation Center,簡稱LSCC):提供本地化數據源的管理、數據密鑰管理、數字簽名共識審批并提供本地化隱私增強計算能力,能保護客戶原始數據不出域,因此需要在用戶私網環境部署。

以下是DataTrust的工程技術架構圖:

  • 安全技術:底層基于不同類型的隱私計算技術,包括多方安全計算、同態加密、差分隱私、聯邦學習等軟件相關安全技術,以及SGX2.0等硬件相關安全技術;
  • 無量框架:抽象和設計一套工程框架,向下統一支持不同類型的安全技術,向上依次提供三層能力:

– 引擎層:提供不同協議的編譯過程、執行算子庫等能力;提供任務調度執行相關能力,包括任務調度執行、資源管理、執行算子庫等;提供不同類型計算引擎的抽象和管理能力;

– 服務層:面向產品功能提供服務實現,包括任務管理、審批管理、數據管理、租戶管理、系統配置等;

– API層:基于中間服務層提供的服務能力,面向業務前臺提供API接口能力;

  • 產品能力:DataTrust通過云產品形式,輸出標準化的產品能力(CSCC+LSCC),同時能夠作為平臺技術提供方,被第三方產品、客戶方所集成,從而滿足定制化的需求場景;
  • 解決方案:從業務視角,面向客戶提供聯合分析、聯合建模、聯合預測等標準化的解決方案能力。

DataTrust在設計階段,從邏輯上拆分為了CSCC和LSCC兩個功能產品模塊,針對不同的應用場景,在物理部署時可以靈活支持以下兩種不同的部署形態:

  • 云上部署架構:云上部署CSCC,客戶在云上VPC或自有IDC機房等私域環境下部署LSCC。優點是各參與方無需部署和運維CSCC,由云平臺作為第三方承擔協調方的職責,各參與方僅需部署輕量化的LSCC即可完成本地安全計算。

  • 獨立部署架構:一方客戶在自有IDC機房等私域環境下部署CSCC+LSCC,另一方客戶在自有IDC機房等私域環境下部署LSCC,雙方點對點完成多方聯合計算過程。該部署架構適用于金融等行業客戶,希望能夠不依賴于云平臺、完全獨立部署的場景。優點是無需引用云平臺負責多方之間的協調職責,但前提是參與方之間一方信任另一方來承擔協調職責。

DataTrust技術架構優勢

  • 嚴格遵循隱私計算安全標準
–?去中心化的多方計算架構:在客戶IDC/云上VPC等自有網絡環境部署本地安全計算客戶端(LSCC),云上協調中心(CSCC)無法觸達客戶數據密鑰等敏感信息,計算過程完全在客戶本地完成。
行業標準、評測、專利:國家眾多隱私計算標準、行業標準的參與制定者,工信部唯一一個頒發三項隱私計算評測的產品,通過金標委評測的產品,擁有多項國家發明專利、軟件著作權。
更高效、更安全的底層協議:緊貼業界前沿隱私計算學術研究,協議深度定制優化;創新性的理論研究成果,產學研有機結合與落地。
  • 模塊插件化、適配多種異構環境

遵循插件化的設計思路,隨著支持業務落地過程中,目前已經支持了多種常見的配置源、數據源、計算引擎、傳輸通道等核心組件插件,而且能夠快速擴展新的插件實現。

  • 云原生容器化部署、多種部署交付形態

得益于靈活的技術架構、以及容器化的實現,DataTrust可以支持以下不同的部署形態:

– 云上部署:Client/Server模式

– 獨立部署:Peer to Peer模式

– 一體機部署:軟硬件一體機模式

– LSCC部署:單機模式(最小化部署)、集群模式(分布式部署)

    • 大數據場景高性能及規?;?/strong>– 完整的、系統化的商用云產品方案
      • 包含協議密鑰管理、協議編譯、數據源管理、作業管理、作業調度執行等全鏈路產品化能力。
      • 支持多租戶的任務調度,支持即時調度、周期調度等調度方式。
      • 業界領先的執行性能,超大規模數據場景下的穩定服務,且支持規?;湛蛻?。

– 靈活的平臺開放能力

    • 開放Open API,方便業務方集成開發、定制化開發場景。
    • 開放執行算子開發框架,支持合作方、業務方自定義執行算子的開發與集成。

業務落地案例

DataTrust已具備MPC、FL、TEE等多種隱私計算技術下的聯合分析、聯合學習的產品化解決方案能力,目前已在多個業務場景完成落地。

  • 聯合分析:一方內容媒體側和電商交易側做全鏈路營銷分析轉化,用來指導產品和營銷整體方案。

  • 聯合建模:廣告主和媒體側數據聯合建模,提高轉化率,用來指導投放策略。

以上是DataTrust在隱私計算領域從產品需求到工程架構的實踐之路。

后續我們將從不同的產品功能方向,進一步和大家分享DataTrust的更多技術實現細節,敬請期待哦~

隱私增強計算平臺DataTrust

DataTrust是行業領先的基于可信執行環境(Trusted Execution Environment,TEE)、安全多方計算(Secure Multi-Party Computation,MPC)、聯邦學習(Federated Learning,FL)、差分隱私(Differential Privacy,DP)等隱私增強計算(Privacy Enhancing Technique)技術打造的隱私增強計算平臺,在保障數據隱私及安全前提下完成多方數據聯合分析、聯合訓練、聯合預測,實現數據價值的流通,助力企業業務增長。

感謝支持199IT
我們致力為中國互聯網研究和咨詢及IT行業數據專業人員和決策者提供一個數據共享平臺。

要繼續訪問我們的網站,只需關閉您的廣告攔截器并刷新頁面。
滾動到頂部
色老头网