谵妄预测多智能体AI报告辅助临床决策调查问卷74

一、研究目的

本问卷用于评估：

1）临床医生在仅基于病历资料时对急重症患者谵妄发生风险的判断；

2）在参考多智能体系统DeLiriuMAgents输出的AI报告后，临床医生的判断是否改变、信心是否提升；

3）AI报告在临床准确性、推理质量、总体有用性方面的表现。

注：本评估仅用于科研。请按真实临床思维作答。

二、评估方案

评估者：5 名年资相近、具有急诊或重症相关经验的临床医生

病例：来自本地两家医院，各 50 例，共 100 例（均为匿名化病历摘要/结构化数据）

分配：每名医生评估 20 例（病例随机分配；尽量保证阳性/阴性比例与真实分布接近）

盲法：医生在步骤1时不参考任何 AI 输出；步骤2 才参考 AI 报告；每一页作答完成后不可返回修改（锁定）

步骤1：仅基于病历资料的临床判断（没有AI辅助）

下面是患者的中文病历描述：

电子病历描述:

## 电子健康档案开始 ##
该患者被收入急诊重症监护病房（ED-ICU）。以下电子健康档案数据代表在急诊重症监护病房住院期间首次记录的可用数值。这些数据包括人口统计学、生命体征、实验室检查结果以及治疗或干预措施：
- 患者ID：B0159。
- 性别：男性。
- 年龄：79岁。
- 种族：亚裔。
- 主诉：呼吸困难、疲劳、腹泻。
- 合并症：无记录合并症。
- 改良早期预警评分（MEWS）：2。（MEWS基于生命体征和意识水平评估临床恶化风险。MEWS＜5通常表示恶化风险较低，而MEWS≥5提示较高风险，需强化监测或治疗。MEWS≥9与死亡率风险显著增加相关。）

格拉斯哥昏迷评分（GCS）：
- GCS运动反应：6。（范围：1–6；较低分数表示运动反应受损。）
- GCS言语反应：5。（范围：1–5；较低分数表示言语反应受损。）
- GCS睁眼反应：4。（范围：1–4；较低分数表示睁眼反应受损。）
- GCS总分：15。（GCS总分评估意识水平。分数范围从3（深度昏迷）到15（完全清醒和定向）。15分表示正常意识。）

生命体征：
- 心率：103.00 bpm（参考范围：60 - 100 bpm）。高于参考范围。
- 收缩压（SBP）：123.00 mmHg（参考范围：90 - 120 mmHg）。高于参考范围。
- 舒张压（DBP）：78.00 mmHg（参考范围：60 - 80 mmHg）。在参考范围内。
- 呼吸频率：15.00 次/min（参考范围：12 - 20 次/min）。在参考范围内。
- 体温：36.00 °C（参考范围：36 – 37.3 °C）。在参考范围内。
- 氧饱和度（SpO2）：68.00 %（参考范围：95 - 100 %）。低于参考范围。

实验室检查：
血液学：
- 血细胞比容：42.00 %（参考范围：35.0 - 50.0 %）。在参考范围内。
- 血红蛋白：13.00 g/dL（参考范围：12.0 - 18.0 g/dL）。在参考范围内。
- 血小板计数：354.00 ×10^9/L（参考范围：150 - 350 ×10^9/L）。高于参考范围。
- 白细胞计数（WBC）：17.12 ×10^9/L（参考范围：4.5 - 11 ×10^9/L）。高于参考范围。
肾功能：
- 血尿素氮（BUN）：24.39 mg/dL（参考范围：8 - 23 mg/dL）。高于参考范围。
- 血清肌酐：0.77 mg/dL（参考范围：0.6 - 1.2 mg/dL）。在参考范围内。
血清电解质：
- 钠（Na⁺）：143.80 mmol/L（参考范围：136 - 142 mmol/L）。高于参考范围。
- 钾（K⁺）：3.93 mmol/L（参考范围：3.5 - 5.0 mmol/L）。在参考范围内。
- 钙（Ca²⁺）：9.08 mg/dL（参考范围：8.5 - 10.2 mg/dL）。在参考范围内。
- 镁（Mg²⁺）：2.41 mg/dL（参考范围：1.3 - 2.1 mg/dL）。高于参考范围。
代谢：
- 葡萄糖：207.36 mg/dL（参考范围：70 - 110 mg/dL）。高于参考范围。
肝功能和酶学：
- 天冬氨酸氨基转移酶（AST）：30.00 IU/L（参考范围：10 - 30 IU/L）。在参考范围内。
- 丙氨酸氨基转移酶（ALT）：22.00 IU/L（参考范围：10 - 40 IU/L）。在参考范围内。
- 白蛋白：4.33 g/dL（参考范围：3.5 - 5.0 g/dL）。在参考范围内。
- 总胆红素：0.92 mg/dL（参考范围：0.3 - 1.2 mg/dL）。在参考范围内。
- 乳酸脱氢酶（LDH）：243.00 IU/L（参考范围：100 - 200 IU/L）。高于参考范围。

治疗：
- 抗生素使用：是。
- 镇静剂使用：否。
- 血管升压药使用：否。
- 糖皮质激素使用：否。
- 侵入性操作：否。
- 所有呼吸支持措施：无。
- 最高呼吸支持：无。
## 电子健康档案结束 ##

1. 您预测该患者发生谵妄的可能性：

极低（<10%）低（10%–30%）中等（30%–70%）高（70%–90%）极高（>90%）

步骤2：参考多智能体AI报告后的临床判断（AI报告为DeLiriuMAgents输出）

下面是患者的中文病历描述与AI报告：

2. 此处电子病历描述与步骤1中相同, 是否需要重新阅读:

是否

电子病历描述:

多智能体系统DeLiriuMAgents输出的AI报告

### 急诊-重症监护室谵妄风险预测临床报告

**1. 最终风险评估**
基于所有可用证据的综合分析，该患者在急诊-重症监护室期间被评估为**低风险**发生谵妄。主观风险概率为**0.30**，置信评分为**0.80**。该判断整合了机器学习预测（概率0.29，置信度0.764）以及急诊科、神经科和精神科评估的一致共识。关键保护因素——特别是意识完整（GCS评分15）、无药物或机械诱发因素（未使用镇静/机械通气）及血流动力学稳定（MEWS评分2）——超过了缺氧与感染等急性风险因素。对临床管理的意义在于采取非紧急但保持警惕的策略，重点关注可修正风险的纠正，同时避免过度干预。

**2. 关键变量**
三个变量对本判断起决定性作用：
1. **格拉斯哥昏迷指数总分（15分）**：强保护性因素，表明意识与注意力完整。各子项评分正常（睁眼、言语、运动）排除了急性神经功能障碍。病理生理学角度显示其丘脑皮质连接性保留，降低了生理应激下的谵妄易感性。
2. **血氧饱和度（68%）**：需紧急纠正的高危因素。严重缺氧直接损害脑代谢，可能触发炎症介导的神经元损伤。该因素在评估中的权重因患者当前GCS稳定性而减弱，提示存在代偿机制。
3. **抗生素使用+白细胞计数（17.12 ×10⁹/L）**：中度风险，源于可能的感染性全身炎症。但无脑病症状（如注意力缺陷）及及时启动抗生素治疗降低了即时谵妄风险。

**3. 证据推理链**
患者为79岁男性，主诉急性呼吸困难、乏力及腹泻。生理应激源——低氧（SpO₂ 68%）、白细胞增多（WBC 17.12）和心动过速——最初通过缺氧代谢应激和神经炎症提示谵妄易感性。然而，完整的意识（GCS 15）和缺乏高危暴露因素（镇静剂、通气支持、多重用药）抵消了这些风险。神经学检查未见脑病体征，精神科评估未见神经精神波动。所有三位专科医生（急诊科、神经科、精神科）均与机器学习模型的低风险预测一致，强调保护性变量的主导作用。医学证据支持年龄作为风险因素，但确认避免苯二氮卓类药物和纠正缺氧是可干预重点。整体印证模型0.29概率的临床有效性。

**4. 需监测因素**
未来24-48小时关键监测目标包括：
- **血氧饱和度（SpO₂）**：持续缺氧可能急剧升高谵妄风险。
- **感染标志物（白细胞计数、体温）**：感染恶化可能加重炎症负荷。
- **神经状态（系列GCS评分）**：意识水平的细微下降可能是谵妄前兆。
- **肾脏/代谢指标（尿素氮、血糖）**：尿素氮升高提示脱水；高血糖可能加剧代谢应激。

**5. 初始干预建议**
- **非药物干预**：实施昼夜节律照明、降噪及定向训练方案。鼓励家属参与以稳定定向力。
- **药物调整**：继续抗生素治疗但严格避免苯二氮卓类药物（证据证实其与谵妄相关）。监测血糖以便必要时胰岛素滴定。
- **会诊建议**：当前无需精神科正式随访。仅当GCS下降时需神经科会诊。
- **高风险标记**：不启动高风险协议。改为每日两次CAM-ICU筛查并记录于标准护理流程表。

---
*本报告融合机器学习预测、多学科共识及循证医学证据，在保障临床稳定性的同时优先干预可修正风险。在无矛盾警示征象的前提下，结论始终基于模型的可靠性。*

3. 基于病历资料和AI报告，您预测该患者发生谵妄的可能性：

极低（<10%）低（10%–30%）中等（30%–70%）高（70%–90%）极高（>90%）

4. AI报告是否改变了您的判断？

没有改变略有改变（相邻档位变化）明显改变（跨≥2档）

5. 若您的判断发生变化，AI报告让您改变原先判断的理由是?(可多选)

AI报告提示了此前未充分注意到的信息AI报告给出的推理与分析理由更有依据AI报告的判断异于我原先的判断，促使我重新思考其他:

在AI报告影响您判断的因素中，以下哪些具体内容最关键?（可多选）：

意识/精神状态改变或波动注意力下降/定向障碍兴奋躁动/幻觉妄想表现镇静镇痛/麻醉药物影响感染/炎症/脓毒症缺氧/呼吸衰竭代谢紊乱（电解质/血糖/肾衰等）既往认知障碍/脑卒中史其他（请填写）

步骤3：AI报告质量评价

下面是AI的预测报告：

7. 此处AI报告与步骤2中相同, 是否需要重新阅读:

是否

多智能体系统DeLiriuMAgents输出的AI报告

角度A. Clinical accuracy（临床准确性）

8. 报告对谵妄风险相关医学解释的准确性：

很准确较准确一般不太准确明显不合理

9. 您认为该报告是否存在“幻觉”？

无有不确定

10. 若“有”，请指出可能错误信息出现在哪里（可多选）：

患者基本信息/病史生命体征实验室检查评分量表（如 RASS/CAM-ICU 等）用药/治疗措施诊断/并发症证据检索摘要其他

11. 请描述您在AI报告中发现的可能错误信息：

角度B. Reasoning quality（推理质量）

12. 推理逻辑连贯性（前后是否一致、因果链是否清晰）：

非常清晰较清晰一般较混乱不可理解/自相矛盾

13. 证据支撑与可追溯性（结论是否能回溯到病历事实/关键特征/检索证据，而非“凭空推断”）：

支撑充分较充分一般支撑不足基本无支撑

角度C. Overall usefulness（总体有用性）

14. AI报告会不会帮助提高您的效率：

非常有帮助比较有帮助一般帮助不大没有帮助

15. AI报告的内容设计（长度、逻辑等）是否合理：

非常合理较适合理一般不太合理完全不合理

16. 在真实急诊流程中，您将DeLiriuMAgents作为决策辅助工具使用的意愿：

非常愿意比较愿意一般不太愿意完全不愿意

更多问卷复制此问卷