开yun体育网当端正超过最大限制时-开云(中国登录入口)Kaiyun·体育官方网站
只需一次东谈主类示范开yun体育网,就能让智能体适应新环境?
来自杭州电子科技大学和浙江大学的商讨者,建议了一套新的智能体框架AutoManual。
该商讨灵验措置了智能体过度依赖东谈主类群众提供的常识,难以自主适应新环境的问题。
通过师法东谈主类意志全国"记条记"的过程,AutoManual 不错让智能体延伸任务顺利率高达97%。
不仅如斯,智能体在过程中学习的教育还不错供东谈主类阅读,以致给其他智能体提供蓄意率领。
现存智能体对东谈主类依赖较大
当今,基于大谈话模子的智能体(LLM Agents)展现出深广的后劲,八成自主完成各个规模的任务,如机器东谈主蓄意、游戏变装适度与网站导航。
△AgentBench: Evaluating LLMs as Agents.Xiao Liu ( THU ) et al. arXiv.
但是,这些智能体经常是为特定环境和特定任务联想的。
若是咱们分析一个 LLM Agent 的系统领导词(System Prompts),会发现它频繁由这五个部分构成:
变装描写;
可供使用的动作函数;
输出款式;
颠倒相易或条款;
东谈主类群众的示例。
关于新的环境,其中的前三项不错证据新环境对已有模板作念调换后很快速地界说好;
但关于后两项领导词,会需要东谈主工汇总环境常识,并继续调试这些领导,以及准备多个东谈主类群众示例,才调使 LLM Agent 在新环境中顺畅运行。
那么,是否能让智能体我方从环境交互中学习这些常识呢?
已有的一些使命使用自我反念念 self-reflection 或妙技库 skill library,来让智能体在交互中自我普及,部分缓解了对东谈主工的依赖。
但是,这些反念念和妙技并莫得用于对环境造成真切的交融,即交融环境的常识或机制。
因此,径直使用教育中的妙技来手脚大模子的高下文示例,容易造成旅途依赖。
从东谈主类意志全国过程得回灵感
AutoManual 框架灵验地措置这一可贵,其商讨者从东谈主类意志全国的过程中获取了灵感——
迎面临生分的环境时,东谈主类和会过探索发现、纪录与更新自己的交融来逐渐意志到新环境的规章;
而且,东谈主类不错将我方的交融整理出来,以文本的神志传授给他东谈主。
AutoManual 就效仿了这种过程来纪录和更新 LLM Agent 对环境的交融。
最终,AutoManual 框架将生成的一册率领手册,不仅不错提高智能体对新环境的适应性,还不错为较小的模子的蓄意提供率领,况且易于东谈主类阅读。
仅需一个东谈主类演示,AutoManual 便在机器东谈主蓄意环境 ALFWorld 将智能体的顺利率提高到97%,在网站导航环境 MiniWoB++ 上的任务顺利率则达到98%。
具体来说,AutoManual 框架全体由三个阶段构成:
Building 阶段:Planner Agent 与 Builder Agent 配合从环境的交互中构建出一系列的端正。当端正超过最大限制时,Consolidator Agent 将清除或删除冗余的端正;
Formulating 阶段:Formulator Agent 将端正制定成一个 Markdown 款式的率领手册;
Testing 阶段:将率领手册提供给测试时的 Planner Agent,来评估后果。
△AutoManual 框架总览
领先在 Building 阶段,商讨者受在线强化学习的启发,使用了两个轮流的迭代过程来构建环境端正:
基于刻下端正,Planner Agent 与环境进行一轮交互;
Builder Agent 证据该交互轨迹使用端正系统来更新端正。
与传统强化学习比拟,基于文本的端正束缚取代了样本效力低下的参数优化。
具体而言,关于 Planner Agent,商讨者接收 Python 代码来暗示的可延伸的谋略,这是因为已有使命标明使用代码手脚输出能灵验普及 LLM Agent 后果。
在每一轮的入手,Planner 的输入为当今已知的端正,妙技库或反念念库中有关的案例,刻下的任务与运行不雅测。
而每次 Planner 的输出分为四个部分:
对刻下不雅测的分析;
有关端正的解读;
总体谋略;
一个离别为多个法子的 Python 代码块。
然后,代码将在环境中延伸,并得到响应与新的不雅察收尾。
在这一整轮已毕时,证据任务是否顺利,收尾不错分为三种情况:Direct Success、Indirect Success(发生失实但稍后措置)和 Failure。
关于不磨折况,领导 Planner 相应地汇总妙技代码或反念念,而这些妙技和反念念会存入妙技库或反念念库来援助后续的任务完成。
△Planner Agent 与环境进行交互造成 Trajectory 的过程
关于 Builder Agent,其将证据 Planner 这轮的轨迹,使用端正系统的器具函数来编写和更新端正。
为了促进端正束缚,商讨者引入了一个结构化的端正系统,端正系统中的每个端正王人具有以下四个属性:
端正的类型(分为了 6 种端正);
端正的实质;
端正的示例;
考据日记。
但是,商讨者发现 Builder Agent 在面临这种结构化的端正系统时,或然分会出现幻觉,举例从失败的轨迹中得出顺利教育的端正。
为了裁减失实创建端正的风险,商讨者对 Builder 接收了case-conditioned prompting 战略:
Builder 领先需要分析并细目主要失实的开端为" Imperfect Rules "或" Imperfect Agents ",然后相应的针对性的领导会率领 Builder 进行端正束缚。
△Case-Conditioned Prompting 战略示例
在 Building 阶段已毕后,Formulating 阶段的谋略是增强端正的可读性和全局交融。
因此,作家选择引入 Formulator Agent 对端正自动进行分类,回来每类的要害点,并以 Markdown 的款式将它们制定成一册率领手册。
只需一个东谈主类示例
为了测试 AutoManual 框架的后果,商讨团队在三个着名的交互式环境中进行了实验:
ALFWorld,一个家用机器东谈主的臆造环境,提供了基于文本的交互神志;
MiniWoB++,一个模拟 Web 环境,智能体通过延伸键盘和鼠标操作在网页上完成各式任务;
WebArena,一个传神的 Web 环境,复制了践诺的 Reddit 网站的功能和数据。
在 Building 和 Formulating 阶段,统共 Agent 王人配备了 GPT-4-turbo (gpt-4-1106-preview)。
在 Testing 阶段,Planner Agent 将配备 GPT-4-turbo 或 GPT-3.5-turbo,来评估生成的手册是否不错率领较小的模子。
从 ALFWorld 任务的收尾中不错看出,AutoManual 需要很少的环境有关的群众先验常识,只提供一个东谈主类示例即可得回相配出色的收尾。
而关于另外两个 Web 环境的收尾,也不错得出不异的论断。
此外,AutoManual 生成的 Markdown 手册对东谈主类阅读也很友好。
通过分析 AutoManual 生成的手册,不错看到其发现了很多有真谛的环境端正。
比如在 rule_2,类型为" Special Phenomena "的端正中说:
当使用微波炉时,即使内部有另一个物体,智能体拿着什么东西,况且莫得明确提到微波门是掀开的,智能体也不错与它互动(举例,加热一个物体)。然后其举了一个例子,是在 epoch_1 中的资格。
还有在 rule_3 中说:
Agent 一次只可执有一个物体,况且必须在拿走另一个物体之前放下任何执有的物体。
因此,AutoManual 通过更真切地挖掘机制、更新和整合顺利历程以及堤防迫切细节来措置只使用妙技的旅途依赖问题。
△ALFWorld 环境中 AutoManual 生成的 Markdown 手册作家简介
该论文由杭州电子科技大学和浙江大学等配合完成。
第一作家陈铭浩,现任杭州电子科技大学计较机学院特聘副教诲,博士毕业于浙江大学 CAD&CG 国度重心实验室。
论文结合:https://arxiv.org/abs/2405.16247
GitHub 地址:https://github.com/minghchen/automanual
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 神志主页结合,以及相关神志哦
咱们会(尽量)实时回话你
点这里� � 蔼然我,难忘标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿证实日日再会 ~