上传者: lp895876294
|
上传时间: 2025-05-08 09:21:43
|
文件大小: 4.24MB
|
文件类型: PDF
多模态人工智能系统很可能会在我们的日常生活中无处不在。使这些系统更具交互性的一个很有前景的方法是将它们具体化为物理环境和虚拟环境中的智能体。目前,各种系统利用现有的基础模型作为创建具身智能体的基本组成部分。将智能体嵌入到这样的环境中,有助于模型处理和解释视觉数据和情境数据,这对于创建更复杂、更具情境感知能力的人工智能系统至关重要。例如,一个能够感知用户行为、人类活动、环境中的物体、音频表达以及场景的整体情感氛围的系统,可用于在给定环境中为智能体的反应提供信息并指导其反应。 为了加速对基于智能体的多模态智能的研究,我们将 “智能体人工智能(Agent AI)” 定义为一类交互式系统,这类系统能够感知视觉刺激、语言输入和其他基于环境的数据,并且能够产生有意义的具身动作。特别是,我们探索了一些系统,这些系统旨在通过纳入外部知识、多感官输入和人类反馈,基于对下一步具身动作的预测来改进智能体。我们认为,通过在实际环境中开发智能体人工智能系统,人们还可以减轻大型基础模型产生幻觉的情况,以及它们生成与环境不符的输出的倾向。 新兴的智能体人工智能领域涵盖了多模态交互中更广泛的具身性和智能体相关方