用Python实作强化学习：使用TensorFlow与OpenAI Gym pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小特书站

ttbooks.qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

强化学习可说是能自我演进的机器学习，能带领我们达到真正的人工智慧。本书好读又容易上手，运用了大量Python范例来从头解释所有东西。

　　本书从强化学习的简介开始，接着是OpenAI Gym与TensorFlow。您会认识各种RL演算法与重要观念，例如Markov决策过程、蒙地卡罗法与动态规划，包括价值迭代与策略迭代。本书提供了非常丰富的范例帮助您认识各种深度强化学习演算法，例如竞争DQN、DRQN、A3C、PPO与TRPO。您还会学到想像增强代理、透过人类偏好来学习、DQfD、HER以及更多强化学习的最新发展。

　　本书精彩内容：
　　．理解强化学习方法、演算法与重要元素的相关基础
　　．使用OpenAI Gym与TensorFlow来训练代理
　　．理解Markov决策过程、Bellman最佳化与TD学习
　　．运用多种演算法来解决多臂式吃角子老虎问题
　　．熟悉各种深度学习演算法，如RNN、LSTM、CNN与其应用
　　．使用DRQN演算法来建置智能代理来玩毁灭战士游戏
　　．使用DDPG来教导代理来玩月球冒险游戏
　　．使用竞争DQN来训练代理来玩赛车游戏

著者信息

作者简介

Sudharsan Ravichandiran

　　是位资料科学家、研究者、人工智慧狂热者与YouTuber（请搜寻Sudharsan reinforcement learning），在Anna大学取得资讯科技学士学位，研究领域是深度学习与强化学习的实务性实作，包含字元语言处理与电脑视觉。

图书目录

第一章｜认识强化学习
介绍何谓强化学习以及其运作原理。介绍强化学习的各种元素，如代理、环境、策略与模型，并带领读者认识用于强化学习的各种环境、平台与函式库，以及强化学习的一些应用。

第二章｜认识OpenAI与TensorFlow
建置使用强化学习的电脑环境，包括Anaconda、Docker、OpenAI Gym、Universe与TensorFlow的安装设定，并说明如何在OpenAI Gym中来模拟代理，以及如何建置一个会玩电玩游戏的机器人程式。另外也会解说TensorFlow的基础观念以及如何使用TensorBoard来进行视觉化操作。

第三章｜Markov决策过程与动态规划
从介绍何谓Markov鍊与Markov流程开始，说明如何使用Markov决策流程来对强化学习问题来建模。接着是一些重要的基本概念，例如价值函数、Q函数与Bellman方程式。然后介绍动态规划以及如何运用价值迭代与策略迭代来解决冻湖问题。

第四章｜使用Monte Carlo方法来玩游戏
介绍了Monte Carlo法与不同类型的 Monte Carlo预测法，如首次拜访MC与每次拜访MC，并说明如何使用Monte Carlo法来玩二十一点这项扑克牌游戏。最后会介绍现时与离线这两种不同的Monte Carlo控制方法。

第五章｜时间差分学习
介绍时间差分（TD）学习、TD预测与TD的即时/离线控制法，如Q学习与SARSA。并说明如何使用Q学习与SARSA来解决计程车载客问题。

第六章｜多臂式吃角子老虎机问题
要讨论的是强化学习的经典问题：多臂式吃角子老虎机（MAB）问题，也称为k臂式吃角子老虎机（MAB）问题。介绍如何使用各种探索策略来解决这个问题，例如epsilon-贪婪、softmax探索、UCB与汤普森取样。本章后半也会介绍如何运用MAB来对使用者显示正确的广告横幅。

第七章｜深度学习的基础概念
介绍深度学习的重要观念。首先，说明何谓神经网路，接着是不同类型的神经网路，如RNN、LSTM与CNN等。本章将实作如何自动产生歌词与分类时尚产品。

第八章｜使用深度Q网路来玩Atari游戏
介绍了一套最常用的深度强化学习演算法：深度Q网路（DQN）。接着介绍DQN的各个元件，并说明如何运用DQN来建置代理来玩Atari游戏。最后介绍一些新型的DQN架构，如双层DQN与竞争DQN。

第九章｜使用深度循环Q网路来玩毁灭战士
介绍深度循环Q网路（DRQN），并说明它与DQN的差异。本章会运用DRQN来建置代理来玩毁灭战士游戏。同时介绍深度专注循环Q网路，它在DRQN架构中加入了专注机制。

第十章｜非同步优势动作评价网路
介绍了非同步优势动作评价网路（A3C）的运作原理。我们将带领你深入了解A3C的架构并学会如何用它来建置会爬山的代理。

第十一章｜策略梯度与最佳化
说明策略梯度如何在不需要Q函数的前提下，帮助我们找到正确的策略。同时还会介绍深度确定性策略梯度法，以及最新的策略最佳化方法，如信赖域策略最佳化与近端策略最佳化。

第十二章使用DQN来玩赛车游戏
本章将带领你运用竞争DQN来建置代理，让它学会玩赛车游戏。

第十三章近期发展与下一步
介绍强化学习领域中的各种最新发展，例如想像增强代理、从人类偏好来学习、由示范来进行的深度Q学习以及事后经验回放等等，然后谈到了不同的强化学习方法，如层次强化学习与逆向强化学习。