《基于Python的强化学习》(美)安德里亚·隆萨中国电力出版社PDF电子书网盘迅雷下载、免费在线阅读-兰台网

图书

基于Python的强化学习

内容

内容推荐

本书首先介绍在强化学习环境中工作所需的工具、库和设置，涵盖了强化学习的构成模块，深入探讨基于值的方法，如Q-learning和SARSA算法的应用。读者将学习如何结合使用Q-learning和神经网络来解决复杂问题。此外，在学习DDPG和TD3确定性算法之前，读者将学习策略梯度方法，如TRPO和PPO，以提高性能和稳定性。本书还介绍模仿学习的原理，以及Dagger如何教智能体飞行。读者将探索进化策略和黑盒优化技术。最后，读者将掌握探索方法，如UCB和UCB1，并开发一个名为ESBAS的元算法。
如果你是人工智能研究者、深度学习用户，或者希望从头开始学习强化学习的人，那么这本书就很适合你。如果你想了解该领域的进展，也会发现这本书很有帮助。当然，Python的基础知识是必需的。

作者简介

安德里亚·隆萨是一名深度学习工程师，对人工智能怀有极大的热情，渴望创造出具有智能行为的机器。他通过理论性的和工业应用性的机器学习项目获得了强化学习、自然语言处理和计算机视觉方面的专业知识。他还参加过几次Kaggle比赛，并取得了很好的成绩。他总是在寻找引人入胜的挑战，并喜欢证明自己。

前言
第一部分算法与环境
第l章强化学习概貌
1.1 强化学习导论
1.1.1 比较强化学习和监督学习
1.1.2 强化学习的历史
1.1.3 深度强化学习
1.2 强化学习的要素
1.2.1 策略
1.2.2 值函数
1.2.3 回报(奖励)
1.2.4 模型
1.3 强化学习的应用
1.3.1 游戏
1.3.3 机器学习
1.3.4 经济学与金融
1.3.5 医疗健康
1.3.6 智能交通系统
1.3.7 能源优化与智能电网
1.4 本章小结
1.5 思考题
1.6 延伸阅读
第2章强化学习过程与OpenAI Gym
2.1 环境设置
2.1.1 安装OpenAI Gym
2.1.2 安装Roboschool
2.2 OpenAI Gym和强化学习过程
2.2.1 开发强化学习过程
2.2.2 了解空间概念
2.3 利用TesorFlow开发强化学习模型
2.3.1 张量
2.3.2 创建计算图
2.3.3 线性回归示例
2.4 TensorBoard介绍
2.5 强化学习环境
2.5.1 为什么需要不同的环境
2.5.2 开源环境
2.6 本章小结
2.7 思考题
2.8 延伸阅读
第3章基于动态规划的问题求解
3.1 马尔可夫决策过程
3.1.1 策略
3.1.2 回报
3.1.3 值函数
3.1.4 贝尔曼方程
3.2 强化学习算法的类别
3.2.1 无模型算法
3.2.2 基于模型的强化学习
3.2.3 算法多样性
3.3 动态规划
3.3.1 策略评价与策略改进
3.3.2 策略迭代
3.3.3 值迭代
3.4 本章小结
3.5 思考题
3.6 延伸阅读
……
第二部分无模型强化学习算法
第三部分超越无模型算法
附录思考题参考答案

标签

缩略图

书名

基于Python的强化学习

副书名

原作名

作者

(美)安德里亚·隆萨

译者

译者:刘继红//王瑞文

编者

绘者

出版社

中国电力出版社

商品编码（ISBN）

9787519870379

开本

16开

页数

265

版次

装订

平装

字数

373

出版时间

2023-01-01

首版时间

2023-01-01

印刷时间

2023-01-01

正文语种

汉

读者对象

普通大众

适用范围

发行范围

公开发行

发行模式

实体书

首发网站

连载网址

图书大类

图书小类

重量

454

CIP核字

2022168796

中图分类号

TP311.561

丛书名

印张

17.75

印次

出版地

北京

长

234

宽

185

高

整理

媒质

用纸

是否注音

影印版本

出版商国别

是否套装

著作权合同登记号

版权提供者

定价

印数

2000

出品方

作品荣誉

主角

配角

其他角色

一句话简介

立意

作品视角

所属系列

文章进度

内容简介

作者简介

文摘

安全警示

适度休息有益身心健康，请勿长期沉迷于阅读小说。

随便看

兰台网图书档案馆全面收录古今中外各种图书，详细介绍图书的基本信息及目录、摘要等图书资料。