谵妄预测多智能体AI报告辅助临床决策调查问卷68

一、研究目的

本问卷用于评估:
1)临床医生在仅基于病历资料时对急重症患者谵妄发生风险的判断;
2)在参考多智能体系统DeLiriuMAgents输出的AI报告后,临床医生的判断是否改变、信心是否提升;
3)AI报告在临床准确性、推理质量、总体有用性方面的表现。
注:本评估仅用于科研。请按真实临床思维作答。

二、评估方案

评估者:5 名年资相近、具有急诊或重症相关经验的临床医生

病例:来自本地两家医院,各 50 例,共 100 例(均为匿名化病历摘要/结构化数据)

分配:每名医生评估 20 例(病例随机分配;尽量保证阳性/阴性比例与真实分布接近)

盲法:医生在步骤1时不参考任何 AI 输出;步骤2 才参考 AI 报告;每一页作答完成后不可返回修改(锁定)
步骤1:仅基于病历资料的临床判断(没有AI辅助)

下面是患者的中文病历描述:
电子病历描述:

## 电子健康记录开始 ##
该患者被收治入急诊科重症监护病房(ED-ICU)。下列EHR数据代表ED-ICU住院期间记录的首批有效数据,包括人口统计学、生命体征、实验室检测结果及治疗措施:
- 患者ID:B0028
- 性别:女
- 年龄:81岁
- 种族:亚裔
- 主诉:未提供/未记录
- 合并症:肾脏疾病、冠心病、高血压
- 改良早期预警评分(MEWS):3分(MEWS通过生命体征和意识水平评估临床恶化风险。MEWS<5分通常提示恶化风险较低,MEWS≥5分需加强监护或治疗,MEWS≥9分与死亡率显著升高相关)

格拉斯哥昏迷评分(GCS):
- GCS运动反应:6分(范围:1-6分,低分表示运动反应障碍)
- GCS语言反应:5分(范围:1-5分,低分表示语言反应障碍)
- GCS睁眼反应:4分(范围:1-4分,低分表示睁眼反应障碍)
- GCS总分:15分(总分评估意识水平,3分[深昏迷]至15分[完全清醒且定向力正常],15分表明意识正常)

生命体征:
- 心率:121.00 次/分(参考范围:60-100 次/分)。高于参考范围
- 收缩压(SBP):146.00 mmHg(参考范围:90-120 mmHg)。高于参考范围
- 舒张压(DBP):87.00 mmHg(参考范围:60-80 mmHg)。高于参考范围
- 呼吸频率:20.00 次/分(参考范围:12-20 次/分)。在参考范围内
- 体温:37.00 °C(参考范围:36–37.3 °C)。在参考范围内
- 血氧饱和度(SpO2):88.00 %(参考范围:95-100 %)。低于参考范围

实验室检测:
血液学:
- 血细胞比容:25.00 %(参考范围:35.0-50.0 %)。低于参考范围
- 血红蛋白:8.30 g/dL(参考范围:12.0-18.0 g/dL)。低于参考范围
- 血小板计数:184.00 ×10^9/L(参考范围:150-350 ×10^9/L)。在参考范围内
- 白细胞计数(WBC):7.22 ×10^9/L(参考范围:4.5-11 ×10^9/L)。在参考范围内
肾功能:
- 血尿素氮(BUN):56.92 mg/dL(参考范围:8-23 mg/dL)。高于参考范围
- 血清肌酐:1.29 mg/dL(参考范围:0.6-1.2 mg/dL)。高于参考范围
血清电解质:
- 钠(Na⁺):137.80 mmol/L(参考范围:136-142 mmol/L)。在参考范围内
- 钾(K⁺):4.97 mmol/L(参考范围:3.5-5.0 mmol/L)。在参考范围内
- 钙(Ca²⁺):9.04 mg/dL(参考范围:8.5-10.2 mg/dL)。在参考范围内
- 镁(Mg²⁺):2.07 mg/dL(参考范围:1.3-2.1 mg/dL)。在参考范围内
代谢指标:
- 葡萄糖:195.12 mg/dL(参考范围:70-110 mg/dL)。高于参考范围
肝功能与酶学:
- 天冬氨酸氨基转移酶(AST):19.00 IU/L(参考范围:10-30 IU/L)。在参考范围内
- 丙氨酸氨基转移酶(ALT):12.00 IU/L(参考范围:10-40 IU/L)。在参考范围内
- 白蛋白:3.78 g/dL(参考范围:3.5-5.0 g/dL)。在参考范围内
- 总胆红素:0.64 mg/dL(参考范围:0.3-1.2 mg/dL)。在参考范围内
- 乳酸脱氢酶(LDH):130.00 IU/L(参考范围:100-200 IU/L)。在参考范围内

治疗措施:
- 抗生素使用:否
- 镇静剂使用:否
- 血管活性药物使用:否
- 糖皮质激素使用:否
- 有创操作:是
- 全部呼吸支持措施:无创通气
- 最高级别呼吸支持:机械通气(含无创通气或有创机械通气)
## 电子健康记录结束 ##

1. 您预测该患者发生谵妄的可能性:
步骤2:参考多智能体AI报告后的临床判断(AI报告为DeLiriuMAgents输出

下面是患者的中文病历描述与AI报告:
2. 此处电子病历描述与步骤1中相同, 是否需要重新阅读:

电子病历描述:

## 电子健康记录开始 ##
该患者被收治入急诊科重症监护病房(ED-ICU)。下列EHR数据代表ED-ICU住院期间记录的首批有效数据,包括人口统计学、生命体征、实验室检测结果及治疗措施:
- 患者ID:B0028
- 性别:女
- 年龄:81岁
- 种族:亚裔
- 主诉:未提供/未记录
- 合并症:肾脏疾病、冠心病、高血压
- 改良早期预警评分(MEWS):3分(MEWS通过生命体征和意识水平评估临床恶化风险。MEWS<5分通常提示恶化风险较低,MEWS≥5分需加强监护或治疗,MEWS≥9分与死亡率显著升高相关)

格拉斯哥昏迷评分(GCS):
- GCS运动反应:6分(范围:1-6分,低分表示运动反应障碍)
- GCS语言反应:5分(范围:1-5分,低分表示语言反应障碍)
- GCS睁眼反应:4分(范围:1-4分,低分表示睁眼反应障碍)
- GCS总分:15分(总分评估意识水平,3分[深昏迷]至15分[完全清醒且定向力正常],15分表明意识正常)

生命体征:
- 心率:121.00 次/分(参考范围:60-100 次/分)。高于参考范围
- 收缩压(SBP):146.00 mmHg(参考范围:90-120 mmHg)。高于参考范围
- 舒张压(DBP):87.00 mmHg(参考范围:60-80 mmHg)。高于参考范围
- 呼吸频率:20.00 次/分(参考范围:12-20 次/分)。在参考范围内
- 体温:37.00 °C(参考范围:36–37.3 °C)。在参考范围内
- 血氧饱和度(SpO2):88.00 %(参考范围:95-100 %)。低于参考范围

实验室检测:
血液学:
- 血细胞比容:25.00 %(参考范围:35.0-50.0 %)。低于参考范围
- 血红蛋白:8.30 g/dL(参考范围:12.0-18.0 g/dL)。低于参考范围
- 血小板计数:184.00 ×10^9/L(参考范围:150-350 ×10^9/L)。在参考范围内
- 白细胞计数(WBC):7.22 ×10^9/L(参考范围:4.5-11 ×10^9/L)。在参考范围内
肾功能:
- 血尿素氮(BUN):56.92 mg/dL(参考范围:8-23 mg/dL)。高于参考范围
- 血清肌酐:1.29 mg/dL(参考范围:0.6-1.2 mg/dL)。高于参考范围
血清电解质:
- 钠(Na⁺):137.80 mmol/L(参考范围:136-142 mmol/L)。在参考范围内
- 钾(K⁺):4.97 mmol/L(参考范围:3.5-5.0 mmol/L)。在参考范围内
- 钙(Ca²⁺):9.04 mg/dL(参考范围:8.5-10.2 mg/dL)。在参考范围内
- 镁(Mg²⁺):2.07 mg/dL(参考范围:1.3-2.1 mg/dL)。在参考范围内
代谢指标:
- 葡萄糖:195.12 mg/dL(参考范围:70-110 mg/dL)。高于参考范围
肝功能与酶学:
- 天冬氨酸氨基转移酶(AST):19.00 IU/L(参考范围:10-30 IU/L)。在参考范围内
- 丙氨酸氨基转移酶(ALT):12.00 IU/L(参考范围:10-40 IU/L)。在参考范围内
- 白蛋白:3.78 g/dL(参考范围:3.5-5.0 g/dL)。在参考范围内
- 总胆红素:0.64 mg/dL(参考范围:0.3-1.2 mg/dL)。在参考范围内
- 乳酸脱氢酶(LDH):130.00 IU/L(参考范围:100-200 IU/L)。在参考范围内

治疗措施:
- 抗生素使用:否
- 镇静剂使用:否
- 血管活性药物使用:否
- 糖皮质激素使用:否
- 有创操作:是
- 全部呼吸支持措施:无创通气
- 最高级别呼吸支持:机械通气(含无创通气或有创机械通气)
## 电子健康记录结束 ##

多智能体系统DeLiriuMAgents输出的AI报告

### 急诊-ICU谵妄风险预测临床报告

#### 1. **最终风险评估**
在综合多来源证据后,患者被评估为在其急诊-ICU期间**不太可能发生谵妄**。主观风险概率为**0.20** (20%),置信分数为**0.75**。

这一判断整合了:
- 机器学习模型的预测(17.4%概率,80%置信度),这与低风险定量相符。
- 急诊和神经科代理之间的一致性,突显了保护因素(完整GCS,无镇静/感染),这与精神科代理对生理应激源的谨慎形成对比。
- 医学证据确认缺氧为谵妄的直接触发因素,但识别了BUN/GCS预测力的缺口。
- 整体临床稳定性(MEWS 3,电解质正常)超过了慢性风险。鉴于急诊-ICU谵妄基线发病率(20–30%),该风险低于立即关注的阈值,需保持警惕但无需警报。

---

#### 2. **关键变量**
四个变量至关重要地塑造了这一评估:
1. **SpO₂ (88%)**: *高风险驱动因素*。病理生理上,缺氧扰乱神经元代谢,尤其在有血管性并发症的老年患者中(RAG证据确认短暂缺氧≤88%通过损害ATP合成直接导致谵妄)。其在此处的突出增加了基线风险。
2. **GCS总分 (15)**: *保护因素*。完整意识否定核心CAM-ICU标准。然而,RAG证据阐明其在生理应激下不保证谵妄抵抗力,缓解了过度依赖。
3. **年龄 (81岁)**: *慢性高风险因素*。减少的神经储备增加对代谢损伤的易感性,加之肾脏/冠心病并发症而加剧。
4. **贫血 (Hgb 8.3 g/dL)**: *中度风险贡献因素*。RAG证据确认严重贫血(Hgb <9 g/dL)独立诱发脑缺氧,加剧谵妄风险,尽管血压正常。

权重:缺氧(40%)、年龄(30%)、贫血(20%)、GCS(10%)。

---

#### 3. **带有证据的推理链**
**患者状况 (电子健康记录):** 这位81岁患者出现急性低氧血症、肾功能损害和需无创通气(NIV)的贫血——均为经典谵妄触发因素。然而正常意识(GCS 15)、无感染(WBC正常)和稳定性(MEWS 3)抵消了这些因素。高血糖和BUN升高构成代谢风险,但正常电解质减轻了严重性。

**医师代理共识:** 急诊和神经科代理认为谵妄可能性低(最终判断:“否”),强调完整GCS和缺乏急性触发因素。精神科代理(“是”)优先考虑缺氧/年龄但承认GCS的保护作用。分歧源自动精神科代理更强调生理易感性(如尿毒症的神经毒性潜力),而其他代理在更广泛的稳定性框架中加以理解。所有代理均同意纠正缺氧的紧迫性。

**证据整合:**
- RAG确认缺氧在谵妄中的因果关系,支持急诊/神经科代理对氧合的专注。
- 贫血与谵妄的独立联系(RAG)验证了其作为关键变量的纳入。
- 无电解质异常的BUN升高缺乏作为孤立风险因素的证据(RAG),减少了尿毒症脑病的担忧。
- GCS 15在生理应激下未提供验证的保护(RAG),为精神科代理的谨慎提供了正当性,但未推翻模型稳定性信号。

综合:鉴于保护因素,模型低于基线的概率(17.4%)是可信的,尽管纠正缺氧仍至关重要。

---

#### 4. **需要监测的因素**
动态监测24–48小时:
1. **SpO₂趋势**: 目标值 >92%;反复缺氧可能迅速加剧谵妄风险。
2. **神经系统状态**: 每小时GCS/CAM-ICU检查,以检测注意力变化或意识波动。
3. **肾/代谢标记物**: BUN/Cr和葡萄糖(目标值 <180 mg/dL),以预防尿毒症/高血糖加剧。
4. **贫血反应**: 输血/氧疗支持后的Hgb;持续<9 g/dL加剧缺氧。
5. **医源性应激源**: NIV时长和操作恢复;延长使用风险睡眠中断。

---

#### 5. **初步干预建议**
**非药物策略:**
- 通过NIV滴注优化氧合;维持昼夜节律(最小化夜间干扰)。
- 日常认知刺激:由医务人员进行重定向,家人的熟悉物品。
- 降噪规程和感官辅助(如果有可用的眼镜/助听器)。

**药物调整:**
- 避免新镇静剂;优先非阿片类镇痛用于操作相关疼痛。
- 纠正贫血(如果指征则输血),管理葡萄糖(皮下胰岛素)。

**会诊:**
- 常规神经科/精神科会诊 *推迟*,除非出现新的神经精神症状。

**协议激活:**
- 标记为谵妄“中等风险”(非高风险):
- 每4–6小时CAM-ICU(非每小时;符合RAG对15–20%风险监测的缺口)。
- 如果SpO₂降至<90%或意识变化,则重新评估。

---
**整合备注:** 作为最终的临床综合者,本报告平衡了机器学习可靠性、医师专业知识分歧和证据缺口。警惕焦点为缺氧解决,同时利用保护因素以避免过度干预。

3. 基于病历资料和AI报告,您预测该患者发生谵妄的可能性:
4. AI报告是否改变了您的判断?
5. 若您的判断发生变化,AI报告让您改变原先判断的理由是?(可多选)
6.
在AI报告影响您判断的因素中,以下哪些具体内容最关键?(可多选):
步骤3:AI报告质量评价

下面是AI的预测报告:
7. 此处AI报告与步骤2中相同, 是否需要重新阅读:

多智能体系统DeLiriuMAgents输出的AI报告

### 急诊-ICU谵妄风险预测临床报告

#### 1. **最终风险评估**
在综合多来源证据后,患者被评估为在其急诊-ICU期间**不太可能发生谵妄**。主观风险概率为**0.20** (20%),置信分数为**0.75**。

这一判断整合了:
- 机器学习模型的预测(17.4%概率,80%置信度),这与低风险定量相符。
- 急诊和神经科代理之间的一致性,突显了保护因素(完整GCS,无镇静/感染),这与精神科代理对生理应激源的谨慎形成对比。
- 医学证据确认缺氧为谵妄的直接触发因素,但识别了BUN/GCS预测力的缺口。
- 整体临床稳定性(MEWS 3,电解质正常)超过了慢性风险。鉴于急诊-ICU谵妄基线发病率(20–30%),该风险低于立即关注的阈值,需保持警惕但无需警报。

---

#### 2. **关键变量**
四个变量至关重要地塑造了这一评估:
1. **SpO₂ (88%)**: *高风险驱动因素*。病理生理上,缺氧扰乱神经元代谢,尤其在有血管性并发症的老年患者中(RAG证据确认短暂缺氧≤88%通过损害ATP合成直接导致谵妄)。其在此处的突出增加了基线风险。
2. **GCS总分 (15)**: *保护因素*。完整意识否定核心CAM-ICU标准。然而,RAG证据阐明其在生理应激下不保证谵妄抵抗力,缓解了过度依赖。
3. **年龄 (81岁)**: *慢性高风险因素*。减少的神经储备增加对代谢损伤的易感性,加之肾脏/冠心病并发症而加剧。
4. **贫血 (Hgb 8.3 g/dL)**: *中度风险贡献因素*。RAG证据确认严重贫血(Hgb <9 g/dL)独立诱发脑缺氧,加剧谵妄风险,尽管血压正常。

权重:缺氧(40%)、年龄(30%)、贫血(20%)、GCS(10%)。

---

#### 3. **带有证据的推理链**
**患者状况 (电子健康记录):** 这位81岁患者出现急性低氧血症、肾功能损害和需无创通气(NIV)的贫血——均为经典谵妄触发因素。然而正常意识(GCS 15)、无感染(WBC正常)和稳定性(MEWS 3)抵消了这些因素。高血糖和BUN升高构成代谢风险,但正常电解质减轻了严重性。

**医师代理共识:** 急诊和神经科代理认为谵妄可能性低(最终判断:“否”),强调完整GCS和缺乏急性触发因素。精神科代理(“是”)优先考虑缺氧/年龄但承认GCS的保护作用。分歧源自动精神科代理更强调生理易感性(如尿毒症的神经毒性潜力),而其他代理在更广泛的稳定性框架中加以理解。所有代理均同意纠正缺氧的紧迫性。

**证据整合:**
- RAG确认缺氧在谵妄中的因果关系,支持急诊/神经科代理对氧合的专注。
- 贫血与谵妄的独立联系(RAG)验证了其作为关键变量的纳入。
- 无电解质异常的BUN升高缺乏作为孤立风险因素的证据(RAG),减少了尿毒症脑病的担忧。
- GCS 15在生理应激下未提供验证的保护(RAG),为精神科代理的谨慎提供了正当性,但未推翻模型稳定性信号。

综合:鉴于保护因素,模型低于基线的概率(17.4%)是可信的,尽管纠正缺氧仍至关重要。

---

#### 4. **需要监测的因素**
动态监测24–48小时:
1. **SpO₂趋势**: 目标值 >92%;反复缺氧可能迅速加剧谵妄风险。
2. **神经系统状态**: 每小时GCS/CAM-ICU检查,以检测注意力变化或意识波动。
3. **肾/代谢标记物**: BUN/Cr和葡萄糖(目标值 <180 mg/dL),以预防尿毒症/高血糖加剧。
4. **贫血反应**: 输血/氧疗支持后的Hgb;持续<9 g/dL加剧缺氧。
5. **医源性应激源**: NIV时长和操作恢复;延长使用风险睡眠中断。

---

#### 5. **初步干预建议**
**非药物策略:**
- 通过NIV滴注优化氧合;维持昼夜节律(最小化夜间干扰)。
- 日常认知刺激:由医务人员进行重定向,家人的熟悉物品。
- 降噪规程和感官辅助(如果有可用的眼镜/助听器)。

**药物调整:**
- 避免新镇静剂;优先非阿片类镇痛用于操作相关疼痛。
- 纠正贫血(如果指征则输血),管理葡萄糖(皮下胰岛素)。

**会诊:**
- 常规神经科/精神科会诊 *推迟*,除非出现新的神经精神症状。

**协议激活:**
- 标记为谵妄“中等风险”(非高风险):
- 每4–6小时CAM-ICU(非每小时;符合RAG对15–20%风险监测的缺口)。
- 如果SpO₂降至<90%或意识变化,则重新评估。

---
**整合备注:** 作为最终的临床综合者,本报告平衡了机器学习可靠性、医师专业知识分歧和证据缺口。警惕焦点为缺氧解决,同时利用保护因素以避免过度干预。

角度A. Clinical accuracy(临床准确性)

8. 报告对谵妄风险相关医学解释的准确性:
9. 您认为该报告是否存在“幻觉”?
10. 若“有”,请指出可能错误信息出现在哪里(可多选):
11. 请描述您在AI报告中发现的可能错误信息:
角度B. Reasoning quality(推理质量)

12. 推理逻辑连贯性(前后是否一致、因果链是否清晰):
13. 证据支撑与可追溯性(结论是否能回溯到病历事实/关键特征/检索证据,而非“凭空推断”):
角度C. Overall usefulness(总体有用性)

14. AI报告会不会帮助提高您的效率:
15. AI报告的内容设计(长度、逻辑等)是否合理:
16. 在真实急诊流程中,您将DeLiriuMAgents作为决策辅助工具使用的意愿:
更多问卷 复制此问卷