返回首页 > 您现在的位置：水果网 > 其他水果 > 正文

机器人学会转笔、盘核桃了！GPT

发布日期：2023/10/26 11:56:32 浏览：20

来源时间为：2023-10-24

机器人学会转笔、盘核桃了！GPT-4加持，任务越复杂，表现越优秀2023-10-2412:21来源：澎湃新闻·澎湃号·湃客字号

大数据文摘出品

家人们，继人工智能（AI）攻占象棋、围棋、Dota之后，转笔这一技能也被AI机器人学会了。

上面这个笔转的贼溜的机器人，得益于名叫Eureka的智能体（Agent），是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分校的一项研究。

得Eureka“指点”后的机器人还可以打开抽屉和柜子、扔球和接球，或者使用剪刀。据英伟达介绍，Eureka有10种不同的类型，可执行29种不同的任务。

要知道在之前，单就转笔这一功能，仅靠人类专家手工编程，是无法如此顺滑的实现的。

机器人盘核桃

而Eureka能够自主编写奖励算法来训练机器人，且码力强劲：自编的奖励程序在83的任务中超越了人类专家，能使机器人的性能平均提升52。

Eureka开创了一种从人类反馈中无梯度学习的新途径，它能够轻松吸收人类提供的奖励和文字反馈，从而进一步完善自己的奖励生成机制。

具体而言，Eureka利用了OpenAI的GPT-4来编写用于机器人的试错学习的奖励程序。这意味着该系统并不依赖于人类特定任务的提示或预设的奖励模式。

Eureka通过在IsaacGym中使用GPU加速的仿真，能够快速评估大量候选奖励的优劣，从而实现更有效率的训练。接着，Eureka会生成训练结果的关键统计信息摘要，并指导LLM（LanguageModel，语言模型）改进奖励函数的生成。通过这种方式，AI智能体能够独立地改善对机器人的指令。

Eureka的框架

研究人员还发现，任务越复杂，GPT-4的指令就越能优于所谓的奖励工程师的人类指令。参与该研究的研究员甚至称Eureka为“超人类奖励工程师”。

Eureka成功地弥补了高层推理（编码）和低层运动控制之间的鸿沟。其采用了一种被称为混合梯度架构：一个纯推理的黑盒子LLM（LanguageModel，语言模型）引导一个可学习的神经网络。在这个架构中，外层循环运行GPT-4来优化奖励函数（无梯度），而内层循环则运行强化学习以训练机器人的控制器（基于梯度）。

——NVIDIA的高级研究科学家LinxiJimFan

Eureka可以整合人类的反馈，以便更好地调整奖励，使其更符合开发者的期望。Nvidia把这个过程称为in-contextRLHF（从人类反馈中进行上下文学习）

值得注意的是，Nvidia的研究团队已经开源了Eureka的AI算法库。这将使得个人和机构能够通过NvidiaIsaacGym来探索和实验这些算法。IsaacGym是建立在NvidiaOmniverse平台上的，这是一个基于OpenUSD框架用于创建3D工具和应用程序的开发框架。

论文链接：https://arxiv.org/pdf/2310.12931.pdf

项目链接：https://eureka-research.github.io/

代码链接：https://github。com/eureka-research/Eureka

如何评价？

在过去的十年中，强化学习取得了巨大的成功，但我们必须承认其中仍存在持续的挑战。之前虽然有尝试引入类似的技术，但与使用语言模型（LLM）来辅助奖励设计的L2R（LearningtoReward）相比，Eureka更为突出，因为它消除了特定任务提示的需要。Eureka之所以能比L2R更出色，是因为它能够创建自由表达的奖励算法，并利用环境源代码作为背景信息。

英伟达的研究团队进行了一项调查，以探索在使用人类奖励函数启动时，是否能提供一些优势。实验的目的是想看看是否你们能顺利地用初始Eureka迭代的输出替代原始的人类奖励函数。

在测试中，英伟达的研究团队在每个任务的情境下，使用相同的强化学习算法和相同的超参数对所有最终奖励函数进行了优化。为了测试这些特定任务的超参数是否经过良好调整以确保人工设计的奖励的有效性，他们采用了经过充分调整的近端策略优化（PPO）实现，这个实现基于之前的工作，没有进行任何修改。对于每个奖励，研究人员进行了五次独立的PPO训练运行，并报告了策略检查点达到的最大任务指标值的平均值，作为奖励性能的度量。

结果显示：人类设计者通常对相关状态变量有很好的理解，但在设计有效奖励方面可能缺乏一定的熟练度。

Nvidia的这项开创性研究在强化学习和奖励设计领域开辟了新的疆界。他们的通用奖励设计算法Eureka利用了大型语言模型和上下文进化搜索的力量，能够在广泛的机器人任务领域生成人类水平的奖励，而无需特定任务提示或人工干预，这在很大程度上改变了我们对AI和机器学习的理解。

原标题：《机器人学会转笔、盘核桃了！GPT-4加持，任务越复杂，表现越优秀》

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper。cn。

上一个其他：这种“芒果”半颗就能致命！还有这些碰都不能碰！
下一个其他：支持甘蔗脱毒种苗发展推进种业产业化进程

你可能会喜欢