《统计策略搜索强化学习方法及应用》赵婷婷电子工业出版社PDF电子书网盘迅雷下载、免费在线阅读-兰台网

智能体AlphaGo战胜人类围棋专家刷新了人类对人工智能的认识，也使得其核心技术强化学习受到学术界的广泛关注。本书正是在如此背景下，围绕作者多年从事强化学习理论及应用的研究内容及国内外关于强化学习的最近动态等方面展开介绍，是为数不多的强化学习领域的专业著作。该著作侧重于基于直接策略搜索的强化学习方法，结合了统计学习的诸多方法对相关技术及方法进行分析、改进及应用。本书以一个全新的现代角度描述策略搜索强化学习算法。从不同的强化学习场景出发，讲述了强化学习在实际应用中所面临的诸多难题。针对不同场景，给定具体的策略搜索算法，分析算法中估计量和学习参数的统计特性，并对算法进行应用实例展示及定量比较。特别地，本书结合强化学习前沿技术将策略搜索算法应用到机器人控制及数字艺术渲染领域，给人以耳目一新的感觉。最后根据作者长期研究经验，对强化学习的发展趋势进行了简要介绍和总结。本书取材经典、全面，概念清楚，推导严密，以期形成一个集基础理论、算法和应用为一体的完备知识体系。

第1章强化学习概述 1
1.1 机器学习中的强化学习 1
1.2 智能控制中的强化学习 4
1.3 强化学习分支 8
1.4 本书贡献 11
1.5 本书结构 12
参考文献 14
第2章相关研究及背景知识 19
2.1 马尔可夫决策过程 19
2.2 基于值函数的策略学习算法 21
2.2.1 值函数 21
2.2.2 策略迭代和值迭代 23
2.2.3 Q-learning 25
2.2.4 基于最小二乘法的策略迭代算法 27
2.2.5 基于值函数的深度强化学习方法 29
2.3 策略搜索算法 30
2.3.1 策略搜索算法建模 31
2.3.2 传统策略梯度算法（REINFORCE算法） 32
2.3.3 自然策略梯度方法（Natural Policy Gradient） 33
2.3.4 期望优选化的策略搜索方法 35
2.3.5 基于策略的深度强化学习方法 37
2.4 本章小结 38
参考文献 39
第3章策略梯度估计的分析与改进 42
3.1 研究背景 42
3.2 基于参数探索的策略梯度算法（PGPE算法） 44
3.3 梯度估计方差分析 46
3.4 基于很优基线的算法改进及分析 48
3.4.1 很优基线的基本思想 48
3.4.2 PGPE算法的很优基线 49
3.5 实验 51
3.5.1 示例 51
3.5.2 倒立摆平衡问题 57
3.6 总结与讨论 58
参考文献 60
第4章基于重要性采样的参数探索策略梯度算法 63
4.1 研究背景 63
4.2 异策略场景下的PGPE算法 64
4.2.1 重要性加权PGPE算法 65
4.2.2 IW-PGPE算法通过基线减法减少方差 66
4.3 实验结果 68
4.3.1 示例 69
4.3.2 山地车任务 78
4.3.3 机器人仿真控制任务 81
4.4 总结和讨论 88
参考文献 89
第5章方差正则化策略梯度算法 91
5.1 研究背景 91
5.2 正则化策略梯度算法 92
5.2.1 目标函数 92
5.2.2 梯度计算方法 94
5.3 实验结果 95
5.3.1 数值示例 95
5.3.2 山地车任务 101
5.4 总结和讨论 102
参考文献 103
第6章基于参数探索的策略梯度算法的采样技术 105
6.1 研究背景 105
6.2 基于参数探索的策略梯度算法中的采样技术 107
6.2.1 基线采样 108
6.2.2 很优基线采样 109
6.2.3 对称采样 109
6.2.4 超对称采样 111
6.2.5 多模态超对称采样 116
6.2.6 SupSymPGPE 的奖励归一化 117
6.3 数值示例实验 119
6.3.1 平方函数 120
6.3.2 Rastrigin函数 120
6.4 本章总结 124
参考文献 125
第7章基于样本有效重用的人形机器人的运动技能学习 127
7.1 研究背景：真实环境下的运动技能学习 127
7.2 运动技能学习框架 128
7.2.1 机器人的运动路径和回报 128
7.2.2 策略模型 129
7.2.3 基于PGPE算法的策略学习方法 129
7.3 有效重用历史经验 130
7.3.1 基于重要性加权的参数探索策略梯度算法（IW-PGPE算法） 130
7.3.2 基于IW-PGPE算法的运动技能学习过程 131
7.3.3 递归型IW-PGPE算法 132
7.4 虚拟环境中的车杆摆动任务 133
7.5 篮球射击任务 137
7.6 讨论与结论 140
参考文献 142
第8章基于逆强化学习的艺术风格学习及水墨画渲染 145
8.1 研究背景 145
8.1.1 计算机图形学背景 146
8.1.2 人工智能背景 147
8.1.3 面向艺术风格化的渲染系统 148
8.2 基于强化学习的笔刷智能体建模 148
8.2.1 动作的设计 149
8.2.2 状态的设计 150
8.3 离线艺术风格学习阶段 151
8.3.1 数据采集 152
8.3.2 基于逆强化学习的奖励函数学习 153
8.3.3 基于R-PGPE算法的渲染策略学习 154
8.4 A4系统用户界面 155
8.5 实验与结果 157
8.5.1 渲染策略学习结果 157
8.5.2 基于IRL进行笔画绘制的渲染结果 160
8.6 本章小结 162
参考文献 163

图书	统计策略搜索强化学习方法及应用
内容	内容推荐智能体AlphaGo战胜人类围棋专家刷新了人类对人工智能的认识，也使得其核心技术强化学习受到学术界的广泛关注。本书正是在如此背景下，围绕作者多年从事强化学习理论及应用的研究内容及国内外关于强化学习的最近动态等方面展开介绍，是为数不多的强化学习领域的专业著作。该著作侧重于基于直接策略搜索的强化学习方法，结合了统计学习的诸多方法对相关技术及方法进行分析、改进及应用。本书以一个全新的现代角度描述策略搜索强化学习算法。从不同的强化学习场景出发，讲述了强化学习在实际应用中所面临的诸多难题。针对不同场景，给定具体的策略搜索算法，分析算法中估计量和学习参数的统计特性，并对算法进行应用实例展示及定量比较。特别地，本书结合强化学习前沿技术将策略搜索算法应用到机器人控制及数字艺术渲染领域，给人以耳目一新的感觉。最后根据作者长期研究经验，对强化学习的发展趋势进行了简要介绍和总结。本书取材经典、全面，概念清楚，推导严密，以期形成一个集基础理论、算法和应用为一体的完备知识体系。目录第1章强化学习概述 1 1.1 机器学习中的强化学习 1 1.2 智能控制中的强化学习 4 1.3 强化学习分支 8 1.4 本书贡献 11 1.5 本书结构 12 参考文献 14 第2章相关研究及背景知识 19 2.1 马尔可夫决策过程 19 2.2 基于值函数的策略学习算法 21 2.2.1 值函数 21 2.2.2 策略迭代和值迭代 23 2.2.3 Q-learning 25 2.2.4 基于最小二乘法的策略迭代算法 27 2.2.5 基于值函数的深度强化学习方法 29 2.3 策略搜索算法 30 2.3.1 策略搜索算法建模 31 2.3.2 传统策略梯度算法（REINFORCE算法） 32 2.3.3 自然策略梯度方法（Natural Policy Gradient） 33 2.3.4 期望优选化的策略搜索方法 35 2.3.5 基于策略的深度强化学习方法 37 2.4 本章小结 38 参考文献 39 第3章策略梯度估计的分析与改进 42 3.1 研究背景 42 3.2 基于参数探索的策略梯度算法（PGPE算法） 44 3.3 梯度估计方差分析 46 3.4 基于很优基线的算法改进及分析 48 3.4.1 很优基线的基本思想 48 3.4.2 PGPE算法的很优基线 49 3.5 实验 51 3.5.1 示例 51 3.5.2 倒立摆平衡问题 57 3.6 总结与讨论 58 参考文献 60 第4章基于重要性采样的参数探索策略梯度算法 63 4.1 研究背景 63 4.2 异策略场景下的PGPE算法 64 4.2.1 重要性加权PGPE算法 65 4.2.2 IW-PGPE算法通过基线减法减少方差 66 4.3 实验结果 68 4.3.1 示例 69 4.3.2 山地车任务 78 4.3.3 机器人仿真控制任务 81 4.4 总结和讨论 88 参考文献 89 第5章方差正则化策略梯度算法 91 5.1 研究背景 91 5.2 正则化策略梯度算法 92 5.2.1 目标函数 92 5.2.2 梯度计算方法 94 5.3 实验结果 95 5.3.1 数值示例 95 5.3.2 山地车任务 101 5.4 总结和讨论 102 参考文献 103 第6章基于参数探索的策略梯度算法的采样技术 105 6.1 研究背景 105 6.2 基于参数探索的策略梯度算法中的采样技术 107 6.2.1 基线采样 108 6.2.2 很优基线采样 109 6.2.3 对称采样 109 6.2.4 超对称采样 111 6.2.5 多模态超对称采样 116 6.2.6 SupSymPGPE 的奖励归一化 117 6.3 数值示例实验 119 6.3.1 平方函数 120 6.3.2 Rastrigin函数 120 6.4 本章总结 124 参考文献 125 第7章基于样本有效重用的人形机器人的运动技能学习 127 7.1 研究背景：真实环境下的运动技能学习 127 7.2 运动技能学习框架 128 7.2.1 机器人的运动路径和回报 128 7.2.2 策略模型 129 7.2.3 基于PGPE算法的策略学习方法 129 7.3 有效重用历史经验 130 7.3.1 基于重要性加权的参数探索策略梯度算法（IW-PGPE算法） 130 7.3.2 基于IW-PGPE算法的运动技能学习过程 131 7.3.3 递归型IW-PGPE算法 132 7.4 虚拟环境中的车杆摆动任务 133 7.5 篮球射击任务 137 7.6 讨论与结论 140 参考文献 142 第8章基于逆强化学习的艺术风格学习及水墨画渲染 145 8.1 研究背景 145 8.1.1 计算机图形学背景 146 8.1.2 人工智能背景 147 8.1.3 面向艺术风格化的渲染系统 148 8.2 基于强化学习的笔刷智能体建模 148 8.2.1 动作的设计 149 8.2.2 状态的设计 150 8.3 离线艺术风格学习阶段 151 8.3.1 数据采集 152 8.3.2 基于逆强化学习的奖励函数学习 153 8.3.3 基于R-PGPE算法的渲染策略学习 154 8.4 A4系统用户界面 155 8.5 实验与结果 157 8.5.1 渲染策略学习结果 157 8.5.2 基于IRL进行笔画绘制的渲染结果 160 8.6 本章小结 162 参考文献 163
标签
缩略图
书名	统计策略搜索强化学习方法及应用
副书名
原作名
作者	赵婷婷
译者
编者
绘者
出版社	电子工业出版社
商品编码（ISBN）	9787121419591
开本	16开
页数	172
版次	1
装订
字数	210000
出版时间	2021-08-01
首版时间
印刷时间	2021-08-01
正文语种
读者对象
适用范围
发行范围
发行模式	实体书
首发网站
连载网址
图书大类	教育考试-考试-计算机类
图书小类
重量
CIP核字
中图分类号	TP181
丛书名
印张
印次	1
出版地
长
宽
高
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示	适度休息有益身心健康，请勿长期沉迷于阅读小说。
随便看	冰之火评《残酷罗曼史》天庭N日游漠煙非邪神第二次=v=争取超过千夜酱！夏·瞳之花因为有你帝国的末路:诅咒傅雷之死之我见长评《翠色无缺》评《重生之小女子记事》评《痞女囧天下》追随笑闹风云我眼中的维埃虐黑——龙战骑士歌词衍生物（极短浅评《双颜》梦沫儿双龙配（陵仲）荆棘鸟的传说评《[HP]从零开始》评《[家教、圣斗士、猎人]流星雨般的爱恋——年华虚耗》情劫（郑旦式的爱情）死神的新娘 f4v播放器软件 V2.63 安装汉化版小俊微型计算器 v1.0 绿色版 Shareaza(支持四种P2P下载) 2.7.10.0 官方中文免费安装版 64位 Wise Auto Shutdown(明智定时自动关机工具) V1.54 绿色单文件版宏达报刊管理系统 V2.1 绿色免费版上帝之眼(时空定位终端) v1.0 绿色版云端文档备份软件(surdoc) v2.0.9 多语绿色版游戏鼠标模拟器 v1.0 绿色免费版 Sketchbook for mac v6.2.5中文版苹果电脑版 VST全聚合TV版 for android v3.1.1 安卓版儿童涂色动物园数独专家自由数独萌犬开心消蛋糕物语台球王者传奇消灭星星全新版奇妙动物美妆秀欢乐水果消消乐洗东西我最快：冲鸭幻城每个人都有秘密女医明妃传如果蜗牛有爱情 EU超时任务火线下的江湖大佬信者无敌我和我的十七岁我们甲顺识汝不识丁