株洲市做公司官方网站,网站后台加什么后缀,英文网站建设网站,jpress wordpress通过UI轨迹识别用户的需求。
这篇论文同样聚焦于UI agent#xff0c;只是思路比较特别。他们想要通过训练agent通过用户的行为轨迹反推出他们想要干什么的能力来锻炼agent识别#xff0c;理解#xff0c;使用UI的能力。同时这个训练项目本身也有一定的实际意义#xff0c;…通过UI轨迹识别用户的需求。
这篇论文同样聚焦于UI agent只是思路比较特别。他们想要通过训练agent通过用户的行为轨迹反推出他们想要干什么的能力来锻炼agent识别理解使用UI的能力。同时这个训练项目本身也有一定的实际意义可以把用户的意图记录下来哪天用来预测一下用户需要什么的想打广告
同样的一组动作用户可能会有很多种意图。这里是让模型去预测最可能的一种。
那么项目组是如何判定agent给出的用户意图与数据集里人工给出的意图一致呢
首先论文假设数据集给出的UI轨迹是完全的用户的目的已经达到了。因此假如agent给出的用户意图是UI轨迹中还没有完成的事那就是错的。
论文把用户的意图分为两类寻找信息和做出改变。做出改变类型的任务意图就是要完成特定需求寻找信息类型的任务就是要给出用户需要的关键信息。
接下来是判断agent的描述和答案的匹配标准。首先我们要解释“满足”是什么意思。A满足B代表完成任务A那么任务B也完成了。可以理解为A是一个描述更加详细的任务。假如agent的任务描述和答案相互满足这当然是最好的注意是在UI环境下例如A任务说大B任务说“100”要是UI认为100就是大大就是100它们也是等价的。假如是一方满足另一方也就是agent的描述太宽泛或太详细那就叫部分满足。
事实上该项目的人工审核的时候就是按照两个标准判断的1是agent给出的用户意图是否满足标准答案2是agent给出的是否和标准答案互相匹配。可以看到项目组是比较倾向于让agent往详细了描述的毕竟特别详细有一点奖励太宽泛就完全没有了
同时该项目也有机器审核。这里使用了GPT4o,评价标准和人工一样。
最后在GPT4,Gemini 1.5pro,和人身上做了实验表现是由坏到好。大家的错误主要集中在输出结果太宽泛要么就是有误解比如“选择评价最高的电影”理解为“选择《黑暗骑士》”。而且fewshot表现和zeroshot差不多可能是fewshot之后上下文信息太多了模型把握不住。
感觉这种错误可以理解啊这些行为本来就是摸棱两可的不一定说一定要一模一样言之有理即可吧。要么就在数据集里加上一大堆可能的意图只要模型答对其中一个就行。还可以为不同的合理程度做评分感觉比单一标准更好这主要是数据集的锅。
当前的工作还有一些限制语言局限实际情况中用户可能会有多个意图或者原本的意图会被打断用户的意图也可能因为一些影响而发生变化或者干脆不太会用正在试探。而且现有的数据集也没有做multitask的。