08MARL深度强化学习——模型种类

news/发布时间2024/5/14 13:34:18

文章目录

  • 前言
  • 1、训练与执行的模型
  • 2、Centralised Training and Execution
    • 2.1 Example——central learning
    • 2.2 局限性
  • 3、Decentralised Training and Execution
    • 3.1 Example——independent learning
    • 3.2局限性
  • 4、Centralised Training with Decentralised Execution
    • 4.1 Example——AC
    • 5、总结


前言

在RL学习的章节当中,学习了tubular的方法,其受限于只能更新访问过的状态价值,因此其并不能推断出未访问状态的价值导致算法并不能有效的评估所有状态的价值,因此我们能够训练一个神经网络来近似巨大的输入状态空间,深度强化学习就是训练一个参数化的价值函数或策略用于RL当中,后续学习是将深度强化学习应用到MARL当中,解决更加复杂的任务


1、训练与执行的模型

MARL算法能够根据训练与执行阶段利用的信息进行分类,在训练阶段每个智能体是局部可观测的,称为去中心化训练;在训练阶段能够利用所有智能体的信息,称为中心化训练;在执行阶段利用历史的局部观测,称为去中心化执行;在执行阶段利用所有智能体的全部信息,称为中心化执行

2、Centralised Training and Execution

中心化学习与执行的方法:在训练与执行阶段使用全局共享的信息,这些信息包括局部观测历史、价值函数、学习的世界模型等等,在此类方法中,明显与POSG环境相悖,因此智能体并不局限于局部可观测的信息,因此此类方法可以考虑为具有特权信息,能够获取其他智能体的全部信息

2.1 Example——central learning

中心化学习的算法便是基于此类方法的例子,中心化学习通过使用联合的历史观测序列训练一个中心化的策略将多智能体问题转化为单智能体问题

2.2 局限性

在训练过程需要将联合奖励转化为单一奖励,在一些过程中难以实现;联合动作状态空间随着智能体数量增加呈指数上升;分布的实体之间无法实时交流

3、Decentralised Training and Execution

去中心化训练与执行:在训练阶段与执行阶段是完全去中心化的,并不依赖于中心化的信息共享

3.1 Example——independent learning

独立学习算法每个智能体忽略其他智能体的存在使用单智能体RL算法训练其策略,具有拓展性、以及克服分布实体无法交流等优势

3.2局限性

无法使用所有智能体的信息进行训练;环境非平稳性造成的无法训练

4、Centralised Training with Decentralised Execution

中心化训练分散执行:在训练过程使用中心化的训练方式,而策略采用去中心化的执行方式。例如:在训练期间利用共享的局部信息更新智能体的策略,然而每个智能体的策略只利用局部的信息选择动作,该类方法组合了中心化训练与去中心化执行的优势

4.1 Example——AC

多智能体actor-critic算法:在训练期间中心化的critic利用联合观测历史训练策略能够提供更加准确的状态评估,在执行期间,利用局部的观测历史,价值函数不再需要,由策略决定采取哪个动作

5、总结

本文总结了MARL算法当中的三个基本框架:中心化训练与执行、去中心化训练与执行、中心化训练分散执行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.bcls.cn/YXGj/823.shtml

如若内容造成侵权/违法违规/事实不符,请联系编程老四网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

【Android】使用Android Studio运行Hello World项目

文章目录 1. JDK的安装与配置2. Android Studio的安装3. 运行Hello World项目3.1 新建项目3.2 修改项目配置3.2.1 修改UI界面3.2.2 配置 Android SDK 3.3 添加并运行虚拟设备3.4 运行项目 1. JDK的安装与配置 想要使用Android Studio,必须先配置Java环境&#xff0…

关于内存相关的梳理

1 关键字 总结 (lowmemory,anr in) 2 知识储备 虚拟机原理 垃圾回收算法 又包含标记 和清除两种算法 标记:程序计数器-已过时,可达性分析 具体可见 http://help.eclipse.org/luna/index.jsp?topic%2Forg.ec…

【AI视野·今日NLP 自然语言处理论文速览 第七十八期】Wed, 17 Jan 2024

AI视野今日CS.NLP 自然语言处理论文速览 Wed, 17 Jan 2024 (showing first 100 of 163 entries) Totally 100 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Deductive Closure Training of Language Models for Coherence, Accur…

服务器硬件、部署LNMP动态网站、部署wordpress、配置web与数据库服务分离、配置额外的web服务器

目录 day01 项目实战目标 单机安装基于LNMP结构的WordPress网站 基本环境准备 配置nginx 配置数据库服务 部署wordpress web与数据库服务分离 准备数据库服务器 迁移数据库 配置额外的web服务器 day01 项目实战目标 主机名IP地址client01192.168.88.10/24web1192.1…

GPT-4带来的思想火花

GPT-4能够以其强大的生成能力和广泛的知识储备激发出众多思想火花。它能够在不同的情境下生成新颖的观点、独特的见解和富有创意的解决方案,这不仅有助于用户突破思维定势,还能促进知识与信息在不同领域的交叉融合。 1.GPT-4出色的创新思考和知识整合能…

网络协议与攻击模拟_16HTTP协议

1、HTTP协议结构 2、在Windows server去搭建web扫描器 3、分析HTTP协议流量 一、HTTP协议 1、概念 HTTP(超文本传输协议)用于在万维网服务器上传输超文本(HTML)到本地浏览器的传输协议 基于TCP/IP(HTML文件、图片、查询结构等&…

多线程案例

🎥 个人主页:Dikz12📕格言:那些在暗处执拗生长的花,终有一日会馥郁传香欢迎大家👍点赞✍评论⭐收藏 目录 单例模式 饿汉模式 懒汉模式 阻塞队列 生产者-消费者模型意义 定时器 单例模式 单例模式就…

机器学习基础(一)理解机器学习的本质

导读:在本文中,将深入探索机器学习的根本原理,包括基本概念、分类及如何通过构建预测模型来应用这些理论。 目录 机器学习 机器学习概念 相关概念 机器学习根本:模型 数据的语言:特征与标签 训练与测试&#xf…

飞书上传图片

飞书上传图片 1. 概述1.1 访问凭证2. 上传图片获取image_key1. 概述 飞书开发文档上传图片: https://open.feishu.cn/document/server-docs/im-v1/image/create 上传图片接口,支持上传 JPEG、PNG、WEBP、GIF、TIFF、BMP、ICO格式图片。 在请求头上需要获取token(访问凭证) …

代码随想录刷题笔记-Day17

1. 路径总和 112. 路径总和https://leetcode.cn/problems/path-sum/ 给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。判断该树中是否存在 根节点到叶子节点 的路径,这条路径上所有节点值相加等于目标和 targetSum 。如果存在,返回 true …

C语言希尔排序详解!!!速过

目录 希尔排序是什么? 关于时间复杂度 希尔排序的源代码 希尔排序源代码的详解 希尔排序是什么? 之前我们说了三个排序(插入排序,选择排序,冒泡排序)有需要的铁铁可以去看看之前的讲解。 但因为之前的…

算法沉淀——分治算法(leetcode真题剖析)

算法沉淀——分治算法 快排思想01.颜色分类02.排序数组03.数组中的第K个最大元素04.库存管理 III 归并思想01.排序数组02.交易逆序对的总数03.计算右侧小于当前元素的个数04.翻转对 分治算法是一种解决问题的算法范式,其核心思想是将一个大问题分解成若干个小问题&a…

docker安装一系列镜像

启动docker systemctl start docker docker 启动已经停止的容器 docker start idOrName PS:idOrName为容器的id或者名称 1、安装mysql镜像 拉取mysql5.7的镜像 docker pull mysql:5.7 查看镜像 docker images 启动mysql #启动mysql docker run --name mysql…

Golang中的fmt包:格式化输入输出的利器

Golang中的fmt包:格式化输入输出的利器 在软件开发的世界里,fmt包就像是一位忠实的伙伴,始终陪伴着开发人员。它简化了格式化输入输出的过程,让打印和扫描数据变得轻松自如。无论是向控制台输出简单的消息,还是处理复杂…

城市智慧驿站是什么?城市智慧驿站有哪些功能

城市智慧驿站作为一种创新性的社会配套设施,开始在多个城市落地使用,引起了社会的关注。 城市智慧驿站是什么?城市智慧驿站是在智慧城市的背景下,城市智慧驿站智慧公厕成为了一种创新性的社会配套建筑。作为景观式模块化建筑&…

BOSS直聘招聘经验

招聘低端兼职岗位。流量很大,来的人通常实力也不足。 招聘高端兼职岗位。流量不多。来的人通常具备一定实力。 招聘高薪职位,流量一般,会有有实力的勾搭。 招聘低薪职位,流量一般。通常没什么实力。

Android widget基础指南

widget的概念最早是由一名叫Rose的苹果工程师提出,后来经过多方面机缘巧合的发展下,便有了今天Android平台上的小组件widget,一般APP开发可能应用场景较少,最常见的莫过于天气APP的widget。但对于从事IOT或车载方向的同学&#xf…

网络安全最典型基础靶场-DVWA-本地搭建与初始化

写在前面: 之前也打过这个 DVWA 靶场,但是是在虚拟机环境下的一个小块分区靶场; 本篇博客主要介绍在本地搭建 DVWA 靶场以及靶场的初始化,后续会陆续更新通关教程。 由于我们是在本地搭建,则需要基于你已经装好 phpstu…

基于Springboot+Vue实现的宿舍管理系统

基于SpringbootVue的宿舍管理系统 1.系统相关性介绍1.1 系统架构1.2 设计思路 2.功能模块介绍2.1 用户信息模块2.2 宿舍管理模块2.3 信息管理模块 3. 源码获取以及远程部署 前言: 在现代教育环境中,学生宿舍的管理显得尤为重要,需要一套能…

【C语言相关问题】C语言中关于大小写字母转换的问题

大家好,这里是争做图书馆扫地僧的小白。非常感谢各位的支持,也期待着您的关注。 目前博主有着C语言、C、linux以及数据结构的专栏,内容正在逐步的更新。 希望对各位朋友有所帮助同时也期望可以得到各位的支持,有任何问题欢迎私信与…
推荐文章