IPF-RAG 效果评估问卷 (模型: DeepSeek-V3)
本问卷用于评估不同模型的生成诊疗方案的质量,请您首先选择不同组的问题,每一组问题包含两个病人描述,每个对应三种不同RAG模型(IPF-RAG, 标准RAG, 多查询RAG)生成的诊疗方案。为了防止您在对比的时候忘记了
核心对比模型(IPF-RAG)的生成内容,本问卷按以下顺序展示RAG模型生成内容的展示:
标准RAG模型 -> IPF-RAG模型 -> 多查询RAG模型
对于每个病人描述,您需要进两次对比,在看完前两个RAG模型的生成模型内容后,将
标准RAG模型与IPF-RAG模型表现进行综合对比,接着,在看完最后一个RAG模型后,将多查询RAG模型与IPF-RAG模型进行对比。总的来说,就是比较其他两个模型和核心对比模型(IPF-RAG)的综合表现。答案无标准对错,如实填写即可,问卷可能会花费您几分钟的宝贵时间,谢谢!