谵妄预测多智能体AI报告辅助临床决策调查问卷038

一、研究目的

本问卷用于评估:
1)临床医生在仅基于病历资料时对急重症患者谵妄发生风险的判断;
2)在参考多智能体系统DeLiriuMAgents输出的AI报告后,临床医生的判断是否改变、信心是否提升;
3)AI报告在临床准确性、推理质量、总体有用性方面的表现。
注:本评估仅用于科研。请按真实临床思维作答。

二、评估方案

评估者:5 名年资相近、具有急诊或重症相关经验的临床医生

病例:来自本地两家医院,各 50 例,共 100 例(均为匿名化病历摘要/结构化数据)

分配:每名医生评估 20 例(病例随机分配;尽量保证阳性/阴性比例与真实分布接近)

盲法:医生在步骤1时不参考任何 AI 输出;步骤2 才参考 AI 报告;每一页作答完成后不可返回修改(锁定)
步骤1:仅基于病历资料的临床判断(没有AI辅助)

下面是患者的中文病历描述:
电子病历描述:

患者入住急诊科重症监护病房(ED-ICU)。以下EHR数据代表在ED-ICU期间首次记录在EHR中的可用值。这些数据包括人口统计学、生命体征、实验室检查结果和治疗或干预措施:

- 患者ID: B0225。
- 性别: 男性。
- 年龄: 83岁。
- 种族: 亚洲人。
- 主诉: 呼吸困难。
- 并发症: 脑梗死、心肌梗死、冠心病、高血压。
- 改良早期预警评分(MEWS): 1。(MEWS基于生命体征和意识水平评估临床恶化风险。MEWS <5通常表示恶化风险较低,而MEWS ≥5提示更高风险需强化监护或治疗。MEWS ≥9与死亡率风险显著增加相关。)

格拉斯哥昏迷评分(GCS):
- GCS运动反应: 6。(范围: 1–6; 较低分数表示运动反应受损。)
- GCS言语反应: 5。(范围: 1–5; 较低分数表示言语反应受损。)
- GCS睁眼反应: 4。(范围: 1–4; 较低分数表示睁眼反应受损。)
- GCS总分: 15。(GCS总分评估意识水平。分数范围从3(深度昏迷)到15(完全清醒和定向)。分数15表示正常意识。)

生命体征:
- 心率: 90.00 bpm(参考范围: 60 - 100 bpm)。在参考范围内。
- 收缩压(SBP): 169.00 mmHg(参考范围: 90 - 120 mmHg)。高于参考范围。
- 舒张压(DBP): 98.00 mmHg(参考范围: 60 - 80 mmHg)。高于参考范围。
- 呼吸频率: 18.00 breaths/min(参考范围: 12 - 20 breaths/min)。在参考范围内。
- 体温: 36.00 °C(参考范围: 36 – 37.3 °C)。在参考范围内。
- 血氧饱和度(SpO2): 98.00 %(参考范围: 95 - 100 %)。在参考范围内。

实验室检查:
血液学:
- 红细胞压积: 42.00 %(参考范围: 35.0 - 50.0 %)。在参考范围内。
- 血红蛋白: 12.10 g/dL(参考范围: 12.0 - 18.0 g/dL)。在参考范围内。
- 血小板计数: 129.00 ×10^9/L(参考范围: 150 - 350 ×10^9/L)。低于参考范围。
- 白细胞计数(WBC): 5.90 ×10^9/L(参考范围: 4.5 - 11 ×10^9/L)。在参考范围内。
肾功能:
- 尿素氮(BUN): 25.87 mg/dL(参考范围: 8 - 23 mg/dL)。高于参考范围。
- 血清肌酐: 1.79 mg/dL(参考范围: 0.6 - 1.2 mg/dL)。高于参考范围。
血清电解质:
- 钠(Na⁺): 146.20 mmol/L(参考范围: 136 - 142 mmol/L)。高于参考范围。
- 钾(K⁺): 4.03 mmol/L(参考范围: 3.5 - 5.0 mmol/L)。在参考范围内。
- 钙(Ca²⁺): 8.28 mg/dL(参考范围: 8.5 - 10.2 mg/dL)。低于参考范围。
- 镁(Mg²⁺): 2.21 mg/dL(参考范围: 1.3 - 2.1 mg/dL)。高于参考范围。
代谢:
- 葡萄糖: 158.58 mg/dL(参考范围: 70 - 110 mg/dL)。高于参考范围。
肝功能和酶学:
- 天门冬氨酸氨基转移酶(AST): 15.00 IU/L(参考范围: 10 - 30 IU/L)。在参考范围内。
- 丙氨酸氨基转移酶(ALT): 10.00 IU/L(参考范围: 10 - 40 IU/L)。在参考范围内。
- 白蛋白: 3.61 g/dL(参考范围: 3.5 - 5.0 g/dL)。在参考范围内。
- 总胆红素: 2.24 mg/dL(参考范围: 0.3 - 1.2 mg/dL)。高于参考范围。
- 乳酸脱氢酶(LDH): 309.00 IU/L(参考范围: 100 - 200 IU/L)。高于参考范围。

治疗:
- 抗生素使用: 否。
- 镇静剂使用: 否。
- 升压药使用: 否。
- 糖皮质激素使用: 否。
- 侵入性操作: 否。
- 所有呼吸支持措施: 无。
- 最高呼吸支持: 无。
## 电子健康记录结束 ##
1. 您预测该患者发生谵妄的可能性:
步骤2:参考多智能体AI报告后的临床判断(AI报告为DeLiriuMAgents输出

下面是患者的中文病历描述与AI报告:
2. 此处电子病历描述与步骤1中相同, 是否需要重新阅读:

电子病历描述:

患者入住急诊科重症监护病房(ED-ICU)。以下EHR数据代表在ED-ICU期间首次记录在EHR中的可用值。这些数据包括人口统计学、生命体征、实验室检查结果和治疗或干预措施:

- 患者ID: B0225。
- 性别: 男性。
- 年龄: 83岁。
- 种族: 亚洲人。
- 主诉: 呼吸困难。
- 并发症: 脑梗死、心肌梗死、冠心病、高血压。
- 改良早期预警评分(MEWS): 1。(MEWS基于生命体征和意识水平评估临床恶化风险。MEWS <5通常表示恶化风险较低,而MEWS ≥5提示更高风险需强化监护或治疗。MEWS ≥9与死亡率风险显著增加相关。)

格拉斯哥昏迷评分(GCS):
- GCS运动反应: 6。(范围: 1–6; 较低分数表示运动反应受损。)
- GCS言语反应: 5。(范围: 1–5; 较低分数表示言语反应受损。)
- GCS睁眼反应: 4。(范围: 1–4; 较低分数表示睁眼反应受损。)
- GCS总分: 15。(GCS总分评估意识水平。分数范围从3(深度昏迷)到15(完全清醒和定向)。分数15表示正常意识。)

生命体征:
- 心率: 90.00 bpm(参考范围: 60 - 100 bpm)。在参考范围内。
- 收缩压(SBP): 169.00 mmHg(参考范围: 90 - 120 mmHg)。高于参考范围。
- 舒张压(DBP): 98.00 mmHg(参考范围: 60 - 80 mmHg)。高于参考范围。
- 呼吸频率: 18.00 breaths/min(参考范围: 12 - 20 breaths/min)。在参考范围内。
- 体温: 36.00 °C(参考范围: 36 – 37.3 °C)。在参考范围内。
- 血氧饱和度(SpO2): 98.00 %(参考范围: 95 - 100 %)。在参考范围内。

实验室检查:
血液学:
- 红细胞压积: 42.00 %(参考范围: 35.0 - 50.0 %)。在参考范围内。
- 血红蛋白: 12.10 g/dL(参考范围: 12.0 - 18.0 g/dL)。在参考范围内。
- 血小板计数: 129.00 ×10^9/L(参考范围: 150 - 350 ×10^9/L)。低于参考范围。
- 白细胞计数(WBC): 5.90 ×10^9/L(参考范围: 4.5 - 11 ×10^9/L)。在参考范围内。
肾功能:
- 尿素氮(BUN): 25.87 mg/dL(参考范围: 8 - 23 mg/dL)。高于参考范围。
- 血清肌酐: 1.79 mg/dL(参考范围: 0.6 - 1.2 mg/dL)。高于参考范围。
血清电解质:
- 钠(Na⁺): 146.20 mmol/L(参考范围: 136 - 142 mmol/L)。高于参考范围。
- 钾(K⁺): 4.03 mmol/L(参考范围: 3.5 - 5.0 mmol/L)。在参考范围内。
- 钙(Ca²⁺): 8.28 mg/dL(参考范围: 8.5 - 10.2 mg/dL)。低于参考范围。
- 镁(Mg²⁺): 2.21 mg/dL(参考范围: 1.3 - 2.1 mg/dL)。高于参考范围。
代谢:
- 葡萄糖: 158.58 mg/dL(参考范围: 70 - 110 mg/dL)。高于参考范围。
肝功能和酶学:
- 天门冬氨酸氨基转移酶(AST): 15.00 IU/L(参考范围: 10 - 30 IU/L)。在参考范围内。
- 丙氨酸氨基转移酶(ALT): 10.00 IU/L(参考范围: 10 - 40 IU/L)。在参考范围内。
- 白蛋白: 3.61 g/dL(参考范围: 3.5 - 5.0 g/dL)。在参考范围内。
- 总胆红素: 2.24 mg/dL(参考范围: 0.3 - 1.2 mg/dL)。高于参考范围。
- 乳酸脱氢酶(LDH): 309.00 IU/L(参考范围: 100 - 200 IU/L)。高于参考范围。

治疗:
- 抗生素使用: 否。
- 镇静剂使用: 否。
- 升压药使用: 否。
- 糖皮质激素使用: 否。
- 侵入性操作: 否。
- 所有呼吸支持措施: 无。
- 最高呼吸支持: 无。
## 电子健康记录结束 ##

多智能体系统DeLiriuMAgents输出的AI报告

急诊科ICU谵妄风险预测临床报告

### 最终风险评估
基于机器学习模型预测(低风险概率:0.15,置信度:0.764)、电子健康记录(EHR)分析、急诊、神经科和精神科医师代理人的一致共识以及医学证据的全面整合,该患者在急诊科至重症监护病房(ED-ICU)期间发生谵妄的可能性较低。最终判断:
- **预测:** 否
- **主观风险概率:** 0.15(15%)
- **置信度评分:** 0.76

**综合分析依据:** 机器学习模型的低风险预测锚定了我们的判断,且得到医师代理人评估的一致强化,引用意识状态保留(格拉斯哥昏迷评分GCS 15)、无高风险干预措施以及血流动力学稳定。存在轻微代谢异常,但缺乏严重性或急迫性以覆盖保护因素。临床意义在于避免不必要的药物预防措施,同时保持对演变风险的警惕。

### 关键变量
五个变量对本判断至关重要:
1. **格拉斯哥昏迷评分GCS总分(15):** 强保护性。正常意识状态(运动、言语和睁眼子组件完好)通过维持认知基线降低谵妄风险。
2. **无镇静剂/抗生素使用:** 保护性。缺乏GABA激动剂镇静剂(如苯二氮䓬类)和需感染的抗生素消除了主要医源性触发因素。
3. **年龄(83岁):** 风险因素。高龄易导致神经炎症和脑储备减少,但保护变量抵消了此脆弱性。
4. **肾功能(血尿素氮BUN 25.87 mg/dL,肌酐Creatinine 1.79 mg/dL):** 轻度风险。轻度升高的BUN提示尿毒症毒素积累,但缺乏严重性,不足以在无同时低氧/感染的情况下诱发谵妄。
5. **电解质失衡(钠离子Na⁺ 146.2 mmol/L,钙离子Ca²⁺ 8.28 mg/dL):** 低风险。高钠血症和低钙血症可能扰乱神经元信号传递,但均处于亚临床状态(Na⁺ <150 mmol/L;Ca²⁺接近参考范围)。

*病理生理权重:* GCS总分(最高权重)和药物缺失在对抗神经递质失调方面起主导保护作用。年龄作为静态风险持续存在,而肾/电解质紊乱需监测但缺乏独立预测力。

### 证据推理链
**患者状况(电子健康记录EHR):** 该83岁男性患者出现呼吸困难,生命体征稳定(改良早期预警评分MEWS 1,血氧饱和度SpO₂ 98%),无急性神经功能缺损。并发症(脑梗死、心血管疾病)带来基线脆弱性,但正常GCS和无干预措施(镇静剂、通气)降低了风险。轻微代谢紊乱—高钠血症、低钙血症、肾功能障碍和高血糖—处于亚急性期但临床稳定。无证据支持低氧、感染或多药物联用作为即刻触发因素。

**医师代理人共识:** 三方代理人一致强调GCS 15为保护性,轻微实验室异常不足以支持高风险分层。急诊科强调电解质校正,神经科指出无脑病征象,精神科关注慢性脆弱性被稳定性抵消。无分歧;差异反映专业视角但均指向低急性程度。

**证据整合:** 医学证据佐证关键见解。检索增强生成(RAG)数据证实苯二氮䓬类显著增加谵妄风险—此处避免使用为保护性。低氧(SpO₂ <90%)并非独立预测因子,符合该患者正常氧合状态。感染标志物(白细胞WBC/C反应蛋白CRP)缺乏支持早期谵妄起病的证据,验证了我们对感染风险的排除。电解质紊乱是可修正因素,但在急诊科特定风险模型中预测强度低于GCS/干预措施。

### 需监测因素
动态变量应在24–48小时内连续评估:
- **神经状态:** 连续GCS评估以检测微意识波动。
- **肾/代谢趋势:** BUN、肌酐和电解质(钠、钙)监测恶化失衡。
- **葡萄糖水平:** 高血糖(158 mg/dL)可能诱发渗透压应激;每小时葡萄糖检测。
- **炎症标志物:** 血小板(129 ×10⁹/L)作为亚临床炎症替代指标。
- **生命体征变化:** 血压(收缩压SBP 169 mmHg)监测高血压急症或MEWS升高。

### 初始干预建议
**非药物干预:**
- 通过白昼光照和夜间降噪恢复昼夜节律。
- 实施认知刺激(如家属互动、定向提示)。
- 最小化制动;根据耐受鼓励早期活动。

**药物调整:**
- 避免苯二氮䓬类或抗精神病药物;如疼痛出现优先选用非镇静镇痛药。
- 用低渗静脉输液纠正高钠血症;监测钙水平。
- 如持续高血糖 >180 mg/dL考虑胰岛素滑动量表。

**会诊建议:** 除非GCS下降或出现神经精神症状,否则无需紧急神经科/精神科转诊。

**风险标记:** 不升级至高风险方案。标记为常规4小时神经评估。

---
此多学科综合优先考虑机器学习有效性,同时纳入专科专业。保护因素主导,但主动监测确保对恶化快速响应。

---

3. 基于病历资料和AI报告,您预测该患者发生谵妄的可能性:
4. AI报告是否改变了您的判断?
5. 若您的判断发生变化,AI报告让您改变原先判断的理由是?(可多选)
6.
在AI报告影响您判断的因素中,以下哪些具体内容最关键?(可多选):
步骤3:AI报告质量评价

下面是AI的预测报告:
7. 此处AI报告与步骤2中相同, 是否需要重新阅读:

多智能体系统DeLiriuMAgents输出的AI报告

急诊科ICU谵妄风险预测临床报告

### 最终风险评估
基于机器学习模型预测(低风险概率:0.15,置信度:0.764)、电子健康记录(EHR)分析、急诊、神经科和精神科医师代理人的一致共识以及医学证据的全面整合,该患者在急诊科至重症监护病房(ED-ICU)期间发生谵妄的可能性较低。最终判断:
- **预测:** 否
- **主观风险概率:** 0.15(15%)
- **置信度评分:** 0.76

**综合分析依据:** 机器学习模型的低风险预测锚定了我们的判断,且得到医师代理人评估的一致强化,引用意识状态保留(格拉斯哥昏迷评分GCS 15)、无高风险干预措施以及血流动力学稳定。存在轻微代谢异常,但缺乏严重性或急迫性以覆盖保护因素。临床意义在于避免不必要的药物预防措施,同时保持对演变风险的警惕。

### 关键变量
五个变量对本判断至关重要:
1. **格拉斯哥昏迷评分GCS总分(15):** 强保护性。正常意识状态(运动、言语和睁眼子组件完好)通过维持认知基线降低谵妄风险。
2. **无镇静剂/抗生素使用:** 保护性。缺乏GABA激动剂镇静剂(如苯二氮䓬类)和需感染的抗生素消除了主要医源性触发因素。
3. **年龄(83岁):** 风险因素。高龄易导致神经炎症和脑储备减少,但保护变量抵消了此脆弱性。
4. **肾功能(血尿素氮BUN 25.87 mg/dL,肌酐Creatinine 1.79 mg/dL):** 轻度风险。轻度升高的BUN提示尿毒症毒素积累,但缺乏严重性,不足以在无同时低氧/感染的情况下诱发谵妄。
5. **电解质失衡(钠离子Na⁺ 146.2 mmol/L,钙离子Ca²⁺ 8.28 mg/dL):** 低风险。高钠血症和低钙血症可能扰乱神经元信号传递,但均处于亚临床状态(Na⁺ <150 mmol/L;Ca²⁺接近参考范围)。

*病理生理权重:* GCS总分(最高权重)和药物缺失在对抗神经递质失调方面起主导保护作用。年龄作为静态风险持续存在,而肾/电解质紊乱需监测但缺乏独立预测力。

### 证据推理链
**患者状况(电子健康记录EHR):** 该83岁男性患者出现呼吸困难,生命体征稳定(改良早期预警评分MEWS 1,血氧饱和度SpO₂ 98%),无急性神经功能缺损。并发症(脑梗死、心血管疾病)带来基线脆弱性,但正常GCS和无干预措施(镇静剂、通气)降低了风险。轻微代谢紊乱—高钠血症、低钙血症、肾功能障碍和高血糖—处于亚急性期但临床稳定。无证据支持低氧、感染或多药物联用作为即刻触发因素。

**医师代理人共识:** 三方代理人一致强调GCS 15为保护性,轻微实验室异常不足以支持高风险分层。急诊科强调电解质校正,神经科指出无脑病征象,精神科关注慢性脆弱性被稳定性抵消。无分歧;差异反映专业视角但均指向低急性程度。

**证据整合:** 医学证据佐证关键见解。检索增强生成(RAG)数据证实苯二氮䓬类显著增加谵妄风险—此处避免使用为保护性。低氧(SpO₂ <90%)并非独立预测因子,符合该患者正常氧合状态。感染标志物(白细胞WBC/C反应蛋白CRP)缺乏支持早期谵妄起病的证据,验证了我们对感染风险的排除。电解质紊乱是可修正因素,但在急诊科特定风险模型中预测强度低于GCS/干预措施。

### 需监测因素
动态变量应在24–48小时内连续评估:
- **神经状态:** 连续GCS评估以检测微意识波动。
- **肾/代谢趋势:** BUN、肌酐和电解质(钠、钙)监测恶化失衡。
- **葡萄糖水平:** 高血糖(158 mg/dL)可能诱发渗透压应激;每小时葡萄糖检测。
- **炎症标志物:** 血小板(129 ×10⁹/L)作为亚临床炎症替代指标。
- **生命体征变化:** 血压(收缩压SBP 169 mmHg)监测高血压急症或MEWS升高。

### 初始干预建议
**非药物干预:**
- 通过白昼光照和夜间降噪恢复昼夜节律。
- 实施认知刺激(如家属互动、定向提示)。
- 最小化制动;根据耐受鼓励早期活动。

**药物调整:**
- 避免苯二氮䓬类或抗精神病药物;如疼痛出现优先选用非镇静镇痛药。
- 用低渗静脉输液纠正高钠血症;监测钙水平。
- 如持续高血糖 >180 mg/dL考虑胰岛素滑动量表。

**会诊建议:** 除非GCS下降或出现神经精神症状,否则无需紧急神经科/精神科转诊。

**风险标记:** 不升级至高风险方案。标记为常规4小时神经评估。

---
此多学科综合优先考虑机器学习有效性,同时纳入专科专业。保护因素主导,但主动监测确保对恶化快速响应。

---

角度A. Clinical accuracy(临床准确性)

8. 报告对谵妄风险相关医学解释的准确性:
9. 您认为该报告是否存在“幻觉”?
10. 若“有”,请指出可能错误信息出现在哪里(可多选):
11. 请描述您在AI报告中发现的可能错误信息:
角度B. Reasoning quality(推理质量)

12. 推理逻辑连贯性(前后是否一致、因果链是否清晰):
13. 证据支撑与可追溯性(结论是否能回溯到病历事实/关键特征/检索证据,而非“凭空推断”):
角度C. Overall usefulness(总体有用性)

14. AI报告会不会帮助提高您的效率:
15. AI报告的内容设计(长度、逻辑等)是否合理:
16. 在真实急诊流程中,您将DeLiriuMAgents作为决策辅助工具使用的意愿:
更多问卷 复制此问卷