基于LLM的社交媒体对话数据打分
问卷说明
本问卷旨在评估 LLM Agent 在模拟社交媒体环境下的角色扮演的对话质量。共包含 4 个评估案例,每个案例需进行 5 维度打分及反馈,最后真诚希望能得到您对于当前评价体系的反馈!
数据点是基于LLM的agent在模拟社交媒体平台上的对话数据:
(1)对话数据的生成:由社交平台推荐帖子,LLM基于角色设定对看到的帖子进行回复(包括reason和actions,其中actions包括read_only(只读)、quote(带评论的转发)、repost(不带评论的转发)、like(点赞))。
(2)模拟多个时间点。形成以下数据结构:【角色设定(agent扮演的角色信息)】、【对话历史(agent在平台上的交互历史)】、【当前时刻微博推流的帖子】以及【当前时刻agent的回复】。
(3)所有指标都是评估当前对话的质量,不同指标考量的侧重点有所不同。其中,行为一致性、记忆一致性需要综合考虑上述数据结构中的四个属性;拟人化、有用性和道德合法这三个指标不会考量【对话历史】。
(4)帖子数据结构:post_id(帖子ID)、username(发帖人昵称)、content(帖子内容)、num_likes(帖子点赞数)、num_shares(帖子分享数)。此外,帖子以级联转发形式呈现。例如一个二级转发关系,用户A发了帖子r,转发关系为B转发r,并评论了q,C转发B转发的帖子并评论了p,那么C发的帖子再次被刷到则形如C:p // B:q //A:r。
(5)Agent回复的数据结构:action代表采取的行为,每一个'{ }'代表一个行为,其中的name对应操作名称,arguments代表具体的参数(一般只有一个参数post_id,代表操作的帖子ID,对于quote会多一个字段quote_content代表转发时的评论)。
数据较长,辛苦
开始作答

基于LLM的社交媒体对话数据打分

举报