前言
本書說明的是如何應用隱私保護技術來解決機器學習中的隱私問題。我們常常可以聽到,如今這個時代是「巨量資料」的時代,而「巨量資料」正是人工智慧、機器學習得以茁壯成長的原料。但是,我們又常常麵對這樣一個現實:資料是分散的、碎片化的,它們分散在使用者的各個終端,如手機、平闆電腦等。傳統的方法是將這些資料集中到一個中心伺服器,然後在該伺服器上進行集中式訓練。然而,這樣的方法會引起嚴重的隱私洩露問題,引發使用者對個人隱私被侵犯的擔憂。隨著各國相繼宣佈隱私保護的相關法律法規,這樣的做法也越發變得不可行。
為瞭保護隱私的安全,越來越多的隱私保護機器學習方法正在被提齣,也有很多隱私保護機器學習係統在工業界落地,如Google 的聯邦學習,這些方案在某些特定的領域中能夠解決對應的隱私保護問題,但也麵臨著很多挑戰。舉例來說,以密碼學為基礎的隱私保護方法,通常可以在不怎麼犧牲正確性的情況下,達到隱私保護的效果,但常常麵臨嚴重的效率問題;基於擾動、加入雜訊的方法,可能需要在準確性和隱私性之間取得平衡;以可信執行環境為基礎的方法,具有高效率的優點,但需要所有使用者都信任TEE 的可信根,從而限製瞭其使用場景。
在這樣的背景下,本書將詳細介紹隱私保護機器學習的原理、方法和應用。本書的第1 章是引言部分,介紹瞭人工智慧的發展歷程、相關背景。第2 ∼ 4 章是機器學習和隱私保護技術相關基礎知識的介紹,以及對隱私保護機器學習所麵對的場景的定義。第5 ∼ 12 章則是隱私保護機器學習的具體應用,我們將說明隱私求交技術、安全多方計算平颱,以及如何將隱私保護技術應用於線性模型、樹模型和神經網路,還會介紹推薦係統、可信執行環境和MPC 編譯最佳化方法。第13 章是全書的複習和展望。
處於這個時代的演算法工程師和科學研究人員,見證著機器學習帶來的最深刻、最迅速的變革,也麵臨著人工智慧帶來的種種問題和擔憂。希望本書能為對該領域感興趣的讀者提供相關知識的概述,也能幫助相關領域的從業人員建構隱私保護機器學習的框架。
▍本書特色
本書所涵蓋的範圍很廣,基本包括瞭隱私保護機器學習的各方麵,可以為讀者提供一個全麵的概覽。在內容深度方麵,本書不僅是一本「概況書」。自然,書中會包含隱私保護機器學習的概況,但是在每一章裡,都會深入講解技術原理,可以作為大專院校相關專業的大學生、所究所學生的學習參考資料。在新穎度方麵,筆者在寫作每一個章節時都查閱瞭相關領域的最新進展,希望能將最新的研究成果呈現給讀者。
▍本書讀者
(1) 工業界的相關從業者。本書涵蓋瞭隱私保護機器學習的各方麵,希望可以給從業者提供一個瞭解相關技術的途徑,進而在工作中選擇閤適的方案,揚長避短,不斷改進技術點。
(2) 有一定電腦基礎,該領域的同好、大專院校的學生。本書在保證深度的同時,用儘量易於瞭解的方式講解原理,可以作為大學生、所究所學生的參考資料。
▍歡迎交流
機器學習的發展日新月異,而我知識有限,難免有疏漏之處。歡迎讀者將閱讀時發現的問題迴饋給我,或與我討論相關技術,可至深智數位的官網讀者信箱留言。
▍緻謝
本書的寫作並不輕鬆,由於時間倉促,在寫作過程中幾乎擠齣瞭所有時間查閱相關文獻、梳理技術框架、構思寫作順序,希望能以儘量通俗易懂的語言將相關內容呈現給讀者。限於時間緊迫和本人的知識水準有限,書中的疏漏不當之處懇請各位讀者批評指正。
在此,感謝參與編寫人員:陳超超、方文靜、季珂宇、盧天培、盧益彪、欒明學、王磊、王力、王誌高、徐又任、殷澤原、餘超凡、袁鵬程、張秉晟、張心語、張興盟、周愛輝、周俊、周哲磊。