英伟达公司(Nvidia Corp.)近日公布了其新产品 Eureka(尤里卡),这是一种人工智能系统,可以自动训练机器人执行新任务。

英伟达开发用于机器人编程的人工智能系统

在一项内部评估中,芯片制造商使用尤里卡教了10个模拟机器人29种不同的动作。工程师通常会在构建机器以支持开发工作之前创建机器的模拟版本。尤里卡教英伟达的虚拟机器人打开抽屉,执行钢笔旋转技巧以及执行其他相对复杂的任务。

许多机器人由一种称为强化学习或RL模型的神经网络提供支持。RL模型通过反复试验来学习执行任务:它们在模拟环境中多次重复任务,直到弄清楚如何正确执行任务。模拟学习环境包括一个虚拟机器人,用作神经网络的测试平台。

在此类项目中,AI训练过程由一段称为奖励函数的代码监督。当机器人在学习会话中得出正确结论时,该功能会“奖励”机器人的 RL 模型,并惩罚它的错误。通过这种方式,RL模型被引导找到操作机器人的正确方法。

为 RL 模型编写奖励函数历来是一项耗时且技术性很强的任务。根据英伟达的说法,其新的尤里卡系统使该过程自动化。该系统可以根据自然语言指令生成奖励功能,例如“教机械臂下棋”。

在引擎盖下,尤里卡使用OpenAI的GPT-4将用户的提示转化为奖励功能。除了提示本身,系统还将所谓的环境代码作为输入。这是描述正在训练以执行新任务的模拟机器人的代码。

根据英伟达的说法,尤里卡不仅会产生奖励功能,而且还会随着时间的推移对其进行改进。该系统创建奖励函数的多个版本,并通过将它们应用于模拟机器人来评估它们的工作情况。然后,尤里卡分析评估结果以确定改进的机会。

系统还可以在此过程中考虑开发人员的反馈。特别是,尤里卡允许工程师就如何增强机器人的奖励功能提供建议。这些建议将合并到代码优化过程中。

英伟达表示,尤里卡开发的奖励函数在其测试的机器人动作中80%以上都优于人类编写的代码。因此,作为项目一部分开发的 10 个模拟机器人更有效地执行了分配的任务。英伟达的研究人员记录了机器人性能的52%。

“强化学习在过去十年中取得了令人印象深刻的胜利,但仍然存在许多挑战,例如奖励设计,这仍然是一个试错过程,”参与尤里卡开发的英伟达人工智能研究高级总监阿尼玛·阿南德库马尔(Anima Anandkumar)说。“尤里卡是开发新算法的第一步,这些算法集成了生成和强化学习方法来解决困难的任务。

英伟达发布了Eureka的关键组件和一篇学术论文,描述了它在GitHub上的工作方式。工程师可以使用芯片制造商的Isaac Gym程序运行该软件,该程序是专门为支持AI机器人开发而设计的模拟工具。

【本站信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。】