序
▍ 為什麼寫作本書
人工智慧已經成為當今資訊技術發展的主要方嚮,深度強化學習將結閤深度學習與強化學習演算法各自的優勢來解決複雜的決策任務。近年來,歸功於 DeepMind AlphaGo 和OpenAI Five 這類成功的案例,深度強化學習受到大 量的關注,相關技術廣泛用於金融、醫療、軍事、能源等領域。為此,學術界和產業界急需大量人纔,而深度強化學習作為人工智慧中的智慧決策部分,是理論與工程相結閤的重要研究方嚮。本書將以通俗易懂的方式講解相關技術,並輔以實踐教學。
▍ 本書主要內容
本書分為三大部分,以盡可能覆蓋深度強化學習所需要的全部內容。
第一部分介紹深度學習和強化學習的入門知識、一些非常基礎的深度強化學習演算法及其實現 細節,請見第 1~6 章。
第二部分是一些精選的深度強化學習研究題目,請見第 7~12 章,這些內容對準備開展深度強化學習研究的讀者非常有用。
為瞭幫助讀者更深入地學習深度強化學習,並把相關技術用於實踐,本書第三部分提供瞭豐富的例子,包括 AlphaZero、讓機器人學習跑步等,請見第 13~17 章。
▍ 如何閱讀本書
本書是為電腦科學專業背景、希望從零學習深度強化學習並開展研究課題和實踐項目的學生準備的。本書也適用於沒有很強機器學習背景、但是希望快速學習深度強化學習並把它應用到具體產品中的軟體工程師。
鑒於不同的讀者情況會有所差異(比如,有的讀者可能是第一次接觸深度學習,而有的讀者可能已經對深度學習有一定的瞭解;有的讀者已經有一些強化學習基礎;有的讀者隻是想瞭解強化學習的概念,而有的讀者是準備長期從事深度強化學習研究的),這裡根據不同的讀者情況給予不同的閱讀建議。
1.要瞭解深度強化學習。
第 1~6 章覆蓋瞭深度強化學習的基礎知識,其中第 2 章是最關鍵、最基礎的內容。如果您已經有深度學習基礎,可以直接跳過第 1 章。第 3章、附錄A 和附錄B 複習瞭不同的演算法。
2.要從事深度強化學習研究。
除瞭深度學習的基礎內容,第 7 章介紹瞭當今強化學習技術發展遇到的各種挑戰。您可以透過閱讀第 8~12 章來進一步瞭解不同的研究方嚮。
3.要在產品中使用深度強化學習。
如果您是工程師,希望快速地在產品中使用深度強化學習技術,第 13~17 章是您關注的重點。您可以根據業務場景中的動作空間和觀測種類來選擇最相似的應用例子,然後運用到您的業務中。
董豪