谵妄预测多智能体AI报告辅助临床决策调查问卷004

一、研究目的

本问卷用于评估：

1）临床医生在仅基于病历资料时对急重症患者谵妄发生风险的判断；

2）在参考多智能体系统DeLiriuMAgents输出的AI报告后，临床医生的判断是否改变、信心是否提升；

3）AI报告在临床准确性、推理质量、总体有用性方面的表现。

注：本评估仅用于科研。请按真实临床思维作答。

二、评估方案

评估者：5 名年资相近、具有急诊或重症相关经验的临床医生

病例：来自本地两家医院，各 50 例，共 100 例（均为匿名化病历摘要/结构化数据）

分配：每名医生评估 20 例（病例随机分配；尽量保证阳性/阴性比例与真实分布接近）

盲法：医生在步骤1时不参考任何 AI 输出；步骤2 才参考 AI 报告；每一页作答完成后不可返回修改（锁定）

步骤1：仅基于病历资料的临床判断（没有AI辅助）

下面是患者的中文病历描述：

电子病历描述:

患者被收入急诊重症监护室 (ED-ICU)。以下电子健康记录数据代表患者在 ED-ICU 住院期间电子健康记录中记录的首批可用数值。这些数据包括人口统计学信息、生命体征、实验室检查结果以及治疗或干预措施：

- 患者 ID：B0196。
- 性别：男。
- 年龄：69 岁。
- 种族：亚裔。
- 主诉：胸痛、腹痛、呼吸困难、发热、呕吐、咳嗽、咳痰。
- 合并症：糖尿病、高血压。
- 改良早期预警评分 (MEWS)：1 分。（MEWS 根据生命体征和意识水平评估临床恶化风险。MEWS < 5 分通常表示恶化风险较低，而 MEWS ≥ 5 分则提示风险较高，需要密切监测或治疗。MEWS ≥ 9 分与死亡风险显著增加相关。）
格拉斯哥昏迷量表 (GCS) 评分：
- GCS 运动反应：6 分。（范围：1-6 分；分数越低表示运动反应越差。）
- GCS 语言反应：5 分。（范围：1-5 分；分数越低表示语言反应越差。）
- GCS 睁眼反应：4 分。（范围：1-4 分；分数越低表示睁眼反应越差。）
- GCS 总分：15 分。（GCS 总分评估意识水平。分数范围从 3 分（深度昏迷）到 15 分（完全清醒且定向力正常）。15 分表示意识正常。）意识清醒。）
生命体征：
- 心率：86.00 次/分（参考范围：60 - 100 次/分）。在参考范围内。
- 收缩压 (SBP)：141.00 mmHg（参考范围：90 - 120 mmHg）。高于参考范围。
- 舒张压 (DBP)：92.00 mmHg（参考范围：60 - 80 mmHg）。高于参考范围。
- 呼吸频率：15.00 次/分（参考范围：12 - 20 次/分）。在参考范围内。
- 体温：36.00 °C（参考范围：36 – 37.3 °C）。在参考范围内。
- 血氧饱和度 (SpO2)：96.00 %（参考范围：95 - 100 %）。在参考范围内。实验室检查：
血液学：
- 红细胞压积：47.00%（参考范围：35.0 - 50.0%）。在参考范围内。
- 血红蛋白：13.80 g/dL（参考范围：12.0 - 18.0 g/dL）。在参考范围内。
- 血小板计数：262.00 ×10^9/L（参考范围：150 - 350 ×10^9/L）。在参考范围内。
- 白细胞计数：7.00 ×10^9/L（参考范围：4.5 - 11 ×10^9/L）。在参考范围内。
肾功能：
- 血尿素氮：21.42 mg/dL（参考范围：8 - 23 mg/dL）。在参考范围内。
- 血清肌酐：0.74 mg/dL（参考范围：0.6 - 1.2 mg/dL）。在参考范围内。
血清电解质：
- 钠 (Na⁺)：144.00 mmol/L（参考范围：136 - 142 mmol/L）。高于参考范围。
- 钾 (K⁺)：3.90 mmol/L（参考范围：3.5 - 5.0 mmol/L）。在参考范围内。
- 钙 (Ca²⁺)：9.68 mg/dL（参考范围：8.5 - 10.2 mg/dL）。在参考范围内。
- 镁 (Mg²⁺)：2.31 mg/dL（参考范围：1.3 - 2.1 mg/dL）。高于参考范围。
代谢指标：
- 葡萄糖：90.36 mg/dL（参考范围：70 - 110 mg/dL）。在参考范围内。
肝功能及酶：
- 天冬氨酸氨基转移酶 (AST)：25.00 IU/L（参考范围：10 - 30 IU/L）。在参考范围内。
- 丙氨酸氨基转移酶 (ALT)：23.00 IU/L（参考范围：10 - 40 IU/L）。在参考范围内。
- 白蛋白：4.42 g/dL（参考范围：3.5 - 5.0 g/dL）。在参考范围内。
- 总胆红素：0.99 mg/dL（参考范围：0.3 - 1.2 mg/dL）。在参考范围内。
- 乳酸脱氢酶 (LDH)：202.00 IU/L（参考范围：100 - 200 IU/L）。高于参考范围。
治疗情况：
- 使用抗生素：是。
- 使用镇静剂：否。
- 使用血管加压药：否。
- 使用糖皮质激素：是。
- 进行有创操作：是。
- 所有呼吸支持措施：无。
- 最高级别呼吸支持：无。

1. 您预测该患者发生谵妄的可能性：

极低（<10%）低（10%–30%）中等（30%–70%）高（70%–90%）极高（>90%）

步骤2：参考多智能体AI报告后的临床判断（AI报告为DeLiriuMAgents输出）

下面是患者的中文病历描述与AI报告：

2. 此处电子病历描述与步骤1中相同, 是否需要重新阅读:

是否

电子病历描述:

多智能体系统DeLiriuMAgents输出的AI报告

急诊科ICU谵妄风险预测临床报告

#### 1. **最终风险评估**
综合机器学习预测、多学科医师评估和现有医学证据，该患者在急诊重症监护室住院期间**不太可能发生谵妄**。我给出的**主观风险概率为0.22**，**置信度为0.85**。
此判断整合了三个一致的数据流：
- 机器学习模型预测谵妄风险较低（概率0.25，置信度0.764），该预测基于患者正常的神经功能（格拉斯哥昏迷评分15）以及未接受高风险干预。
- 三位医生（急诊科、神经内科、精神科）一致认为谵妄风险较低，强调患者意识清醒且病情稳定，即使存在感染/炎症诱因。
- 已检索到的医学证据证实了风险因素（年龄、感染），但也证实了正常的氧合、未使用镇静剂以及认知功能良好可以降低这些风险。
该风险在临床上意义不大。鉴于患者的年龄和感染情况，保持警惕仍然至关重要，但目前不存在迫在眉睫的谵妄威胁，因此可以专注于原发疾病的治疗。
---
#### 2. **关键变量**
风险分层中有三个关键变量：
1. **格拉斯哥昏迷量表 (GCS) 总分 [15]**：具有很强的保护作用。正常的 GCS 评分可以排除急性脑病，表明患者注意力集中且执行功能良好——这是预防谵妄的关键防御机制。从病理生理学角度来看，这反映了皮质丘脑连接的完整，降低了感染或应激引发的神经递质失衡的易感性。
2. **使用抗生素[存在]**：中等风险因素。虽然表明存在活动性感染（发热、咳痰），可能通过细胞因子驱动神经炎症，但正常的白细胞计数和血流动力学稳定性减轻了其影响。由于存在代偿因素，该变量的权重有所降低。
3. **机械通气状态[无]**：具有保护作用。避免了呼吸机相关性镇静、缺氧和昼夜节律紊乱。经验证据证实，在重症监护环境中，不使用呼吸机可使谵妄风险降低50%以上。
---
#### 3. **基于证据的推理链**
**患者病情（电子病历）：** 这位69岁的男性患者出现感染症状（发热、咳嗽），需要使用抗生素和糖皮质激素——已知这些药物会通过神经炎症途径诱发谵妄。然而，他的神经系统基线状态良好（格拉斯哥昏迷评分15分，无认知波动），生命体征/代谢指标也未显示急性不稳定（改良早期预警评分1分，氧合正常，无酸中毒）。轻度高钠血症（血钠144 mmol/L）和高镁血症（血镁2.31 mg/dL）无临床严重程度，因为肾功能正常。
**医师共识：** 三位专科医师一致认为谵妄的可能性很小。急诊医师强调神经系统稳定性具有保护作用，超过了感染风险；神经科医师强调没有脑病诱因；精神科医生注意到患者意识清醒，从而最大限度地降低了与年龄相关的脆弱性。共识源于对格拉斯哥昏迷评分（GCS）15分和未使用镇静剂的共同重视——这些基石已得到文献验证。
**证据整合：**检索到的医学知识强化了年龄作为独立危险因素（每增加10岁，>65岁，OR值为1.6），但同时也明确了低氧血症（SpO₂ <90%）比单纯感染更能诱发谵妄。患者的SpO₂（96%）和未进行通气排除了这种机制。由于未使用镇静剂，苯二氮卓类药物的风险可以忽略不计。因此，证据支持低风险评估。
---
#### 4. **需要监测的因素** 24-48小时内的关键监测目标包括：
- **感染轨迹**：体温变化趋势、白细胞计数和培养结果；感染加重可能会加剧神经炎症。
- **神经系统状态**：每 8 小时进行格拉斯哥昏迷评分 (GCS) 评估；任何眼动/语言/运动功能下降都可能提示谵妄的发生。
- **代谢稳定性**：钠和镁水平可能因轻度升高而受到影响；快速波动可能诱发脑病。
- **医源性暴露**：新使用的镇静剂或糖皮质激素可能干扰认知功能。
---
#### 5. **初步干预建议**
**非药物策略：**
- 恢复昼夜节律：尽量减少夜间干扰，确保白天光照。
- 认知刺激：使用时钟/与家人互动来重新调整日常作息；如果腹痛缓解，尽早活动。
- 降低噪音：限制闹钟和夜间检查次数，以保护睡眠结构。
**药物调整：**
- 避免使用苯二氮卓类药物或催眠药；如果再次需要进行侵入性操作，应优先使用非镇静性镇痛药。
- 监测糖皮质激素的作用：即使谵妄风险较低，也应评估是否存在躁动或情绪变化。**会诊流程：**
- 除非格拉斯哥昏迷评分 (GCS) 下降或出现精神症状，否则无需进行正式的神经科/精神科会诊。
**风险预警：**
- **无需**启动高危谵妄流程。每 12 小时进行一次常规的重症监护病房 (ICU) 评估。

3. 基于病历资料和AI报告，您预测该患者发生谵妄的可能性：

极低（<10%）低（10%–30%）中等（30%–70%）高（70%–90%）极高（>90%）

4. AI报告是否改变了您的判断？

没有改变略有改变（相邻档位变化）明显改变（跨≥2档）

5. 若您的判断发生变化，AI报告让您改变原先判断的理由是?(可多选)

AI报告提示了此前未充分注意到的信息AI报告给出的推理与分析理由更有依据AI报告的判断异于我原先的判断，促使我重新思考其他:

在AI报告影响您判断的因素中，以下哪些具体内容最关键?（可多选）：

意识/精神状态改变或波动注意力下降/定向障碍兴奋躁动/幻觉妄想表现镇静镇痛/麻醉药物影响感染/炎症/脓毒症缺氧/呼吸衰竭代谢紊乱（电解质/血糖/肾衰等）既往认知障碍/脑卒中史其他（请填写）

步骤3：AI报告质量评价

下面是AI的预测报告：

7. 此处AI报告与步骤2中相同, 是否需要重新阅读:

是否

多智能体系统DeLiriuMAgents输出的AI报告

急诊科ICU谵妄风险预测临床报告

角度A. Clinical accuracy（临床准确性）

8. 报告对谵妄风险相关医学解释的准确性：

很准确较准确一般不太准确明显不合理

9. 您认为该报告是否存在“幻觉”？

无有不确定

10. 若“有”，请指出可能错误信息出现在哪里（可多选）：

患者基本信息/病史生命体征实验室检查评分量表（如 RASS/CAM-ICU 等）用药/治疗措施诊断/并发症证据检索摘要其他

11. 请描述您在AI报告中发现的可能错误信息：

角度B. Reasoning quality（推理质量）

12. 推理逻辑连贯性（前后是否一致、因果链是否清晰）：

非常清晰较清晰一般较混乱不可理解/自相矛盾

13. 证据支撑与可追溯性（结论是否能回溯到病历事实/关键特征/检索证据，而非“凭空推断”）：

支撑充分较充分一般支撑不足基本无支撑

角度C. Overall usefulness（总体有用性）

14. AI报告会不会帮助提高您的效率：

非常有帮助比较有帮助一般帮助不大没有帮助

15. AI报告的内容设计（长度、逻辑等）是否合理：

非常合理较适合理一般不太合理完全不合理

16. 在真实急诊流程中，您将DeLiriuMAgents作为决策辅助工具使用的意愿：

非常愿意比较愿意一般不太愿意完全不愿意

更多问卷复制此问卷