谵妄预测多智能体AI报告辅助临床决策调查问卷68

一、研究目的

本问卷用于评估：

1）临床医生在仅基于病历资料时对急重症患者谵妄发生风险的判断；

2）在参考多智能体系统DeLiriuMAgents输出的AI报告后，临床医生的判断是否改变、信心是否提升；

3）AI报告在临床准确性、推理质量、总体有用性方面的表现。

注：本评估仅用于科研。请按真实临床思维作答。

二、评估方案

评估者：5 名年资相近、具有急诊或重症相关经验的临床医生

病例：来自本地两家医院，各 50 例，共 100 例（均为匿名化病历摘要/结构化数据）

分配：每名医生评估 20 例（病例随机分配；尽量保证阳性/阴性比例与真实分布接近）

盲法：医生在步骤1时不参考任何 AI 输出；步骤2 才参考 AI 报告；每一页作答完成后不可返回修改（锁定）

步骤1：仅基于病历资料的临床判断（没有AI辅助）

下面是患者的中文病历描述：

电子病历描述:

## 电子健康记录开始 ##
该患者被收治入急诊科重症监护病房（ED-ICU）。下列EHR数据代表ED-ICU住院期间记录的首批有效数据，包括人口统计学、生命体征、实验室检测结果及治疗措施：
- 患者ID：B0028
- 性别：女
- 年龄：81岁
- 种族：亚裔
- 主诉：未提供/未记录
- 合并症：肾脏疾病、冠心病、高血压
- 改良早期预警评分（MEWS）：3分（MEWS通过生命体征和意识水平评估临床恶化风险。MEWS＜5分通常提示恶化风险较低，MEWS≥5分需加强监护或治疗，MEWS≥9分与死亡率显著升高相关）

格拉斯哥昏迷评分（GCS）：
- GCS运动反应：6分（范围：1-6分，低分表示运动反应障碍）
- GCS语言反应：5分（范围：1-5分，低分表示语言反应障碍）
- GCS睁眼反应：4分（范围：1-4分，低分表示睁眼反应障碍）
- GCS总分：15分（总分评估意识水平，3分[深昏迷]至15分[完全清醒且定向力正常]，15分表明意识正常）

生命体征：
- 心率：121.00 次/分（参考范围：60-100 次/分）。高于参考范围
- 收缩压（SBP）：146.00 mmHg（参考范围：90-120 mmHg）。高于参考范围
- 舒张压（DBP）：87.00 mmHg（参考范围：60-80 mmHg）。高于参考范围
- 呼吸频率：20.00 次/分（参考范围：12-20 次/分）。在参考范围内
- 体温：37.00 °C（参考范围：36–37.3 °C）。在参考范围内
- 血氧饱和度（SpO2）：88.00 %（参考范围：95-100 %）。低于参考范围

实验室检测：
血液学：
- 血细胞比容：25.00 %（参考范围：35.0-50.0 %）。低于参考范围
- 血红蛋白：8.30 g/dL（参考范围：12.0-18.0 g/dL）。低于参考范围
- 血小板计数：184.00 ×10^9/L（参考范围：150-350 ×10^9/L）。在参考范围内
- 白细胞计数（WBC）：7.22 ×10^9/L（参考范围：4.5-11 ×10^9/L）。在参考范围内
肾功能：
- 血尿素氮（BUN）：56.92 mg/dL（参考范围：8-23 mg/dL）。高于参考范围
- 血清肌酐：1.29 mg/dL（参考范围：0.6-1.2 mg/dL）。高于参考范围
血清电解质：
- 钠（Na⁺）：137.80 mmol/L（参考范围：136-142 mmol/L）。在参考范围内
- 钾（K⁺）：4.97 mmol/L（参考范围：3.5-5.0 mmol/L）。在参考范围内
- 钙（Ca²⁺）：9.04 mg/dL（参考范围：8.5-10.2 mg/dL）。在参考范围内
- 镁（Mg²⁺）：2.07 mg/dL（参考范围：1.3-2.1 mg/dL）。在参考范围内
代谢指标：
- 葡萄糖：195.12 mg/dL（参考范围：70-110 mg/dL）。高于参考范围
肝功能与酶学：
- 天冬氨酸氨基转移酶（AST）：19.00 IU/L（参考范围：10-30 IU/L）。在参考范围内
- 丙氨酸氨基转移酶（ALT）：12.00 IU/L（参考范围：10-40 IU/L）。在参考范围内
- 白蛋白：3.78 g/dL（参考范围：3.5-5.0 g/dL）。在参考范围内
- 总胆红素：0.64 mg/dL（参考范围：0.3-1.2 mg/dL）。在参考范围内
- 乳酸脱氢酶（LDH）：130.00 IU/L（参考范围：100-200 IU/L）。在参考范围内

治疗措施：
- 抗生素使用：否
- 镇静剂使用：否
- 血管活性药物使用：否
- 糖皮质激素使用：否
- 有创操作：是
- 全部呼吸支持措施：无创通气
- 最高级别呼吸支持：机械通气（含无创通气或有创机械通气）
## 电子健康记录结束 ##

1. 您预测该患者发生谵妄的可能性：

极低（<10%）低（10%–30%）中等（30%–70%）高（70%–90%）极高（>90%）

步骤2：参考多智能体AI报告后的临床判断（AI报告为DeLiriuMAgents输出）

下面是患者的中文病历描述与AI报告：

2. 此处电子病历描述与步骤1中相同, 是否需要重新阅读:

是否

电子病历描述:

多智能体系统DeLiriuMAgents输出的AI报告

### 急诊-ICU谵妄风险预测临床报告

#### 1. **最终风险评估**
在综合多来源证据后，患者被评估为在其急诊-ICU期间**不太可能发生谵妄**。主观风险概率为**0.20** (20%)，置信分数为**0.75**。

这一判断整合了：
- 机器学习模型的预测（17.4%概率，80%置信度），这与低风险定量相符。
- 急诊和神经科代理之间的一致性，突显了保护因素（完整GCS，无镇静/感染），这与精神科代理对生理应激源的谨慎形成对比。
- 医学证据确认缺氧为谵妄的直接触发因素，但识别了BUN/GCS预测力的缺口。
- 整体临床稳定性（MEWS 3，电解质正常）超过了慢性风险。鉴于急诊-ICU谵妄基线发病率（20–30%），该风险低于立即关注的阈值，需保持警惕但无需警报。

---

#### 2. **关键变量**
四个变量至关重要地塑造了这一评估：
1. **SpO₂ (88%)**: *高风险驱动因素*。病理生理上，缺氧扰乱神经元代谢，尤其在有血管性并发症的老年患者中（RAG证据确认短暂缺氧≤88%通过损害ATP合成直接导致谵妄）。其在此处的突出增加了基线风险。
2. **GCS总分 (15)**: *保护因素*。完整意识否定核心CAM-ICU标准。然而，RAG证据阐明其在生理应激下不保证谵妄抵抗力，缓解了过度依赖。
3. **年龄 (81岁)**: *慢性高风险因素*。减少的神经储备增加对代谢损伤的易感性，加之肾脏/冠心病并发症而加剧。
4. **贫血 (Hgb 8.3 g/dL)**: *中度风险贡献因素*。RAG证据确认严重贫血（Hgb <9 g/dL）独立诱发脑缺氧，加剧谵妄风险，尽管血压正常。

权重：缺氧(40%)、年龄(30%)、贫血(20%)、GCS(10%)。

---

#### 3. **带有证据的推理链**
**患者状况 (电子健康记录):** 这位81岁患者出现急性低氧血症、肾功能损害和需无创通气(NIV)的贫血——均为经典谵妄触发因素。然而正常意识(GCS 15)、无感染(WBC正常)和稳定性(MEWS 3)抵消了这些因素。高血糖和BUN升高构成代谢风险，但正常电解质减轻了严重性。

**医师代理共识:** 急诊和神经科代理认为谵妄可能性低(最终判断：“否”)，强调完整GCS和缺乏急性触发因素。精神科代理(“是”)优先考虑缺氧/年龄但承认GCS的保护作用。分歧源自动精神科代理更强调生理易感性(如尿毒症的神经毒性潜力)，而其他代理在更广泛的稳定性框架中加以理解。所有代理均同意纠正缺氧的紧迫性。

**证据整合:**
- RAG确认缺氧在谵妄中的因果关系，支持急诊/神经科代理对氧合的专注。
- 贫血与谵妄的独立联系(RAG)验证了其作为关键变量的纳入。
- 无电解质异常的BUN升高缺乏作为孤立风险因素的证据(RAG)，减少了尿毒症脑病的担忧。
- GCS 15在生理应激下未提供验证的保护(RAG)，为精神科代理的谨慎提供了正当性，但未推翻模型稳定性信号。

综合：鉴于保护因素，模型低于基线的概率(17.4%)是可信的，尽管纠正缺氧仍至关重要。

---

#### 4. **需要监测的因素**
动态监测24–48小时：
1. **SpO₂趋势**: 目标值 >92%；反复缺氧可能迅速加剧谵妄风险。
2. **神经系统状态**: 每小时GCS/CAM-ICU检查，以检测注意力变化或意识波动。
3. **肾/代谢标记物**: BUN/Cr和葡萄糖(目标值 <180 mg/dL)，以预防尿毒症/高血糖加剧。
4. **贫血反应**: 输血/氧疗支持后的Hgb；持续<9 g/dL加剧缺氧。
5. **医源性应激源**: NIV时长和操作恢复；延长使用风险睡眠中断。

---

#### 5. **初步干预建议**
**非药物策略:**
- 通过NIV滴注优化氧合；维持昼夜节律(最小化夜间干扰)。
- 日常认知刺激：由医务人员进行重定向，家人的熟悉物品。
- 降噪规程和感官辅助(如果有可用的眼镜/助听器)。

**药物调整:**
- 避免新镇静剂；优先非阿片类镇痛用于操作相关疼痛。
- 纠正贫血(如果指征则输血)，管理葡萄糖(皮下胰岛素)。

**会诊:**
- 常规神经科/精神科会诊 *推迟*，除非出现新的神经精神症状。

**协议激活:**
- 标记为谵妄“中等风险”(非高风险)：
- 每4–6小时CAM-ICU(非每小时；符合RAG对15–20%风险监测的缺口)。
- 如果SpO₂降至<90%或意识变化，则重新评估。

---
**整合备注:** 作为最终的临床综合者，本报告平衡了机器学习可靠性、医师专业知识分歧和证据缺口。警惕焦点为缺氧解决，同时利用保护因素以避免过度干预。

3. 基于病历资料和AI报告，您预测该患者发生谵妄的可能性：

极低（<10%）低（10%–30%）中等（30%–70%）高（70%–90%）极高（>90%）

4. AI报告是否改变了您的判断？

没有改变略有改变（相邻档位变化）明显改变（跨≥2档）

5. 若您的判断发生变化，AI报告让您改变原先判断的理由是?(可多选)

AI报告提示了此前未充分注意到的信息AI报告给出的推理与分析理由更有依据AI报告的判断异于我原先的判断，促使我重新思考其他:

在AI报告影响您判断的因素中，以下哪些具体内容最关键?（可多选）：

意识/精神状态改变或波动注意力下降/定向障碍兴奋躁动/幻觉妄想表现镇静镇痛/麻醉药物影响感染/炎症/脓毒症缺氧/呼吸衰竭代谢紊乱（电解质/血糖/肾衰等）既往认知障碍/脑卒中史其他（请填写）

步骤3：AI报告质量评价

下面是AI的预测报告：

7. 此处AI报告与步骤2中相同, 是否需要重新阅读:

是否

多智能体系统DeLiriuMAgents输出的AI报告

角度A. Clinical accuracy（临床准确性）

8. 报告对谵妄风险相关医学解释的准确性：

很准确较准确一般不太准确明显不合理

9. 您认为该报告是否存在“幻觉”？

无有不确定

10. 若“有”，请指出可能错误信息出现在哪里（可多选）：

患者基本信息/病史生命体征实验室检查评分量表（如 RASS/CAM-ICU 等）用药/治疗措施诊断/并发症证据检索摘要其他

11. 请描述您在AI报告中发现的可能错误信息：

角度B. Reasoning quality（推理质量）

12. 推理逻辑连贯性（前后是否一致、因果链是否清晰）：

非常清晰较清晰一般较混乱不可理解/自相矛盾

13. 证据支撑与可追溯性（结论是否能回溯到病历事实/关键特征/检索证据，而非“凭空推断”）：

支撑充分较充分一般支撑不足基本无支撑

角度C. Overall usefulness（总体有用性）

14. AI报告会不会帮助提高您的效率：

非常有帮助比较有帮助一般帮助不大没有帮助

15. AI报告的内容设计（长度、逻辑等）是否合理：

非常合理较适合理一般不太合理完全不合理

16. 在真实急诊流程中，您将DeLiriuMAgents作为决策辅助工具使用的意愿：

非常愿意比较愿意一般不太愿意完全不愿意

更多问卷复制此问卷