大语言模型验证知识图谱的可解释性评估

任务说明

请阅读每个案例的三元组和大语言模型（LLM）的解释，然后对解释的质量进行评分。

每个案例只需 30-60 秒，共 15 个案例，总时间约 8-12 分钟。

评分标准

一、可理解性（Understandability）- “这个解释我读得懂吗？语言清晰吗？逻辑清楚吗？”

1分：完全不明白为什么这样判断

2分：有点不明白

3分：基本明白

4分：很清楚

5分：非常清楚

二、有用性（Usefulness）- “这个解释能帮你判断 LLM 的结论是否正确吗？”

1分：完全没用

2分：有点用

3分：比较用

4分：很有用

5分：非常有用

1. 三元组

（变量选择，执行，文档分类）

LLM的判断

正确

LLM的解释

证据路径表明，变量选择对文档分类具有积极影响，说明选择合适的变量能够提升文档分类任务的性能或准确性。这支持了变量选择是能够在文档分类中带来更好结果的过程这一观点，与三元组所述相吻合。其含义是：变量选择是有效执行文档分类的必要步骤或重要贡献因素。

可理解性

有用性

2. 三元组

（关系抽取，是更宽泛的/等同于/是更具体的，信息抽取）

LLM的判断

正确

LLM的解释

所给三元组为（关系抽取，是更宽泛的/等同于/是更具体的，信息抽取）。证据路径表明，根据SKOS（简单知识组织系统）词汇表中对broader（更宽泛）关系的定义，关系抽取比信息抽取更为宽泛。在此语境下，关系抽取可被视为涵盖信息抽取的更一般性类别。因此，三元组中所描述的关系与证据路径一致，正确地将信息抽取识别为关系抽取的更具体实例（即下位词）。

可理解性

有用性

3. 三元组

（贝叶斯分类器，使用，计算机组件）

LLM的判断

错误

LLM的解释

贝叶斯分类器是一种应用贝叶斯定理、根据特征对数据点进行分类的统计模型，主要是用于机器学习和数据分析的软件算法。虽然它运行在计算机上，但并不像CPU、内存或硬盘等硬件组件那样直接使用计算机组件，而是在这些组件所提供的计算环境中运行。因此，三元组中所描述的关系并不准确。

可理解性

有用性

4. 三元组

（支持向量机，包含，降维）

LLM的判断

错误

LLM的解释

支持向量机（SVM）是一种主要用于分类任务的监督式机器学习算法，通过寻找能最佳分隔不同类别的超平面来实现分类。而降维是一种在尽量保留信息的前提下减少数据集特征数量的技术，常用方法包括主成分分析（PCA）和t分布随机邻域嵌入（t-SNE）。

可理解性

有用性

5. 三元组

（链接信息元数据，基于，分词）

LLM的判断

错误

LLM的解释

三元组声称链接信息元数据基于分词。然而，由于知识图谱中没有找到支持该关系的直接路径，说明这两个概念之间没有已建立的连接或证据。在缺乏任何支撑证据或路径的情况下，难以验证前者基于后者这一论断。

可理解性

有用性

6. 三元组

（人工神经网络接口，使用，决策树）

LLM的判断

错误

LLM的解释

证据路径表明人工神经网络接口使用决策树，暗示神经网络接口将决策树作为其功能或方法论的一部分。然而，在通常语境中，人工神经网络与决策树是两种不同的机器学习模型，虽然可以结合使用，但直接说一个使用另一个并非标准表述。该三元组的措辞暗示了一种可能无法准确反映二者实际关系的直接依赖性。

可理解性

有用性

7. 三元组

（多通道算法，使用，自然语言处理）

LLM的判断

正确

LLM的解释

为验证三元组（多通道算法，使用，自然语言处理），需要分析该三元组的各个组成部分。多通道算法通常指处理来自多个通道或来源数据的方法，可包括文本、音频和视觉数据。自然语言处理（NLP）是人工智能的一个领域，专注于计算机与人类语言之间的交互，使机器能够理解、解释和生成人类语言。

可理解性

有用性

8. 三元组

（信息抽取，使用，基于GCN的方法）

LLM的判断

正确

LLM的解释

为验证三元组（信息抽取，使用，基于GCN的方法），需要分析该三元组的各个组成部分。

可理解性

有用性

9. 三元组

（决策树，使用，模糊专家系统）

LLM的判断

错误

LLM的解释

决策树是机器学习和人工智能中用于决策和分类任务的一种模型，通过根据特征值将数据分割成分支，最终在叶节点得出决策或分类结果。而模糊专家系统是一种使用模糊逻辑进行近似推理（而非精确推理）的系统。

可理解性

有用性

10. 三元组

（原始语音，使用，深度学习）

LLM的判断

正确

LLM的解释

为验证三元组（原始语音，使用，深度学习），需要分析该三元组的各个组成部分。原始语音指包含口语内容的未经处理的音频数据；深度学习是机器学习的一个子领域，利用多层神经网络分析各类数据。在自然语言处理和语音识别领域，深度学习技术常被用于处理原始语音数据，实现语音转文本、说话人识别和情感识别等任务。因此，说原始语音可与深度学习方法结合使用以提取有意义的信息或执行特定任务是准确的。

可理解性

有用性

11. 三元组

（多语言命题数据库，使用，依存句法分析）

LLM的判断

错误

LLM的解释

三元组声称多语言命题数据库使用依存句法分析。然而，由于知识图谱中没有找到支持该关系的直接路径，说明在图谱内这两个概念之间没有已建立的证据或连接。缺乏支撑证据，无法确认多语言命题数据库使用依存句法分析这一论断的有效性。

可理解性

有用性

12. 三元组

（收敛中心，获取，聚类分析）

LLM的判断

错误

LLM的解释

三元组声称收敛中心获取聚类分析。在数据分析和机器学习中，收敛中心通常指聚类算法迭代后趋于稳定的质心点；聚类分析是一种将相似数据点归为一组的技术。然而，获取这一措辞在此语境下不甚寻常——通常应说聚类分析识别或产生收敛中心，而非收敛中心获取聚类分析。由于没有找到支持该论断的直接证据路径，且所用术语与该领域的标准表述不符，该关系似乎是错误的。

可理解性

有用性

13. 三元组

（遗传选择，是更宽泛的/等同于/是更具体的，机器学习）

LLM的判断

错误

LLM的解释

三元组声称遗传选择是机器学习的更宽泛术语或下位词。在知识表示中，下位词是宽泛类别下的更具体术语。然而，遗传选择是一种常用于生物和农业领域的具体技术，而机器学习是计算机科学中涉及算法和统计模型的更宽泛研究领域。遗传选择并不属于机器学习的范畴，更应被视为一个独立领域——虽然在某些应用中可能借助机器学习技术，但它本身并非机器学习的子集。所提供的证据路径虽然确认了三元组中所述的关系，但根据相关术语的定义，该关系是不正确的。

可理解性

有用性

14. 三元组

（图像检索，使用，二进制代码）

LLM的判断

错误

LLM的解释

为评估三元组（图像检索，使用，二进制代码），需要分析各术语之间的关系。图像检索指根据特定查询或条件从数据库或互联网中获取图像的过程；使用表示某事物的应用或目的；二进制代码是一种使用二进制数字系统（仅由0和1两个数字组成）表示文本或计算机处理器指令的系统。

可理解性

有用性

15. 三元组

（WordNet，解决，扩展查询词）

LLM的判断

错误

LLM的解释

三元组声称WordNet解决扩展查询词。然而，由于知识图谱中没有找到支持该论断的直接路径，说明没有已建立的关系或证据将WordNet与解决扩展查询词这一行为关联起来。在缺乏任何支撑证据或路径的情况下，该论断无法得到验证。

可理解性

有用性

更多问卷复制此问卷