如何在给出指令后，增加人机互动帮助指令正确完成？ #82

fredajiang · 2025-01-09T02:27:42Z

在使用mobile-agent进行手机操作的过程中，目前的流程是用户给出指令后，mobile-agent根据用户指令完成用户的操作。但是在实际的场景中，操作手机完成指令时仍需要人类协助来帮助正确的完成。想咨询一下，在mobile-agent项目中有没有什么思路来解决这个问题？

场景：当我需要打车时，我给出了原始的出发地和目的地，mobile-agent根据指令帮我叫车。当存在多个相似的目的地，例如我的目的地是深圳莲花山公园（这时候会有多个候选项：深圳莲花山公园南门，深圳莲花山公园北门，深圳莲花山公园东停车场，深圳莲花山公园西停车场等等），这个时候需要人类来协助选择具体的目的地是哪个，而大语言模型选择的那个可能不是用户最后想要的。这种场景的案例挺多的。在这样的场景中，其实需要人类再次协助来帮助正确的完成。

我们尝试引入微软autogen这样的开源框架来重写mobile-agent，使之成为一个一个独立的agent来完成任务（微软autogen框架中有人机对话之类的agent），但是在引入autogen框架重写的过程中又会引入该框架其他的问题（各个agent之间的消息通信及状态控制没有能很好的管理等等）。

这个问题困扰了我很长一段时间，想咨询一下有没有什么好的解决办法或者思路？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何在给出指令后，增加人机互动帮助指令正确完成？ #82

如何在给出指令后，增加人机互动帮助指令正确完成？ #82

fredajiang commented Jan 9, 2025

如何在给出指令后，增加人机互动帮助指令正确完成？ #82

如何在给出指令后，增加人机互动帮助指令正确完成？ #82

Comments

fredajiang commented Jan 9, 2025