谵妄预测多智能体AI报告辅助临床决策调查问卷004

一、研究目的

本问卷用于评估:
1)临床医生在仅基于病历资料时对急重症患者谵妄发生风险的判断;
2)在参考多智能体系统DeLiriuMAgents输出的AI报告后,临床医生的判断是否改变、信心是否提升;
3)AI报告在临床准确性、推理质量、总体有用性方面的表现。
注:本评估仅用于科研。请按真实临床思维作答。

二、评估方案

评估者:5 名年资相近、具有急诊或重症相关经验的临床医生

病例:来自本地两家医院,各 50 例,共 100 例(均为匿名化病历摘要/结构化数据)

分配:每名医生评估 20 例(病例随机分配;尽量保证阳性/阴性比例与真实分布接近)

盲法:医生在步骤1时不参考任何 AI 输出;步骤2 才参考 AI 报告;每一页作答完成后不可返回修改(锁定)
步骤1:仅基于病历资料的临床判断(没有AI辅助)

下面是患者的中文病历描述:
电子病历描述:

患者被收入急诊重症监护室 (ED-ICU)。以下电子健康记录数据代表患者在 ED-ICU 住院期间电子健康记录中记录的首批可用数值。这些数据包括人口统计学信息、生命体征、实验室检查结果以及治疗或干预措施:

- 患者 ID:B0196。
- 性别:男。
- 年龄:69 岁。
- 种族:亚裔。
- 主诉:胸痛、腹痛、呼吸困难、发热、呕吐、咳嗽、咳痰。
- 合并症:糖尿病、高血压。
- 改良早期预警评分 (MEWS):1 分。(MEWS 根据生命体征和意识水平评估临床恶化风险。MEWS < 5 分通常表示恶化风险较低,而 MEWS ≥ 5 分则提示风险较高,需要密切监测或治疗。MEWS ≥ 9 分与死亡风险显著增加相关。)
格拉斯哥昏迷量表 (GCS) 评分:
- GCS 运动反应:6 分。(范围:1-6 分;分数越低表示运动反应越差。)
- GCS 语言反应:5 分。(范围:1-5 分;分数越低表示语言反应越差。)
- GCS 睁眼反应:4 分。(范围:1-4 分;分数越低表示睁眼反应越差。)
- GCS 总分:15 分。(GCS 总分评估意识水平。分数范围从 3 分(深度昏迷)到 15 分(完全清醒且定向力正常)。15 分表示意识正常。)意识清醒。)
生命体征:
- 心率:86.00 次/分(参考范围:60 - 100 次/分)。在参考范围内。
- 收缩压 (SBP):141.00 mmHg(参考范围:90 - 120 mmHg)。高于参考范围。
- 舒张压 (DBP):92.00 mmHg(参考范围:60 - 80 mmHg)。高于参考范围。
- 呼吸频率:15.00 次/分(参考范围:12 - 20 次/分)。在参考范围内。
- 体温:36.00 °C(参考范围:36 – 37.3 °C)。在参考范围内。
- 血氧饱和度 (SpO2):96.00 %(参考范围:95 - 100 %)。在参考范围内。实验室检查:
血液学:
- 红细胞压积:47.00%(参考范围:35.0 - 50.0%)。在参考范围内。
- 血红蛋白:13.80 g/dL(参考范围:12.0 - 18.0 g/dL)。在参考范围内。
- 血小板计数:262.00 ×10^9/L(参考范围:150 - 350 ×10^9/L)。在参考范围内。
- 白细胞计数:7.00 ×10^9/L(参考范围:4.5 - 11 ×10^9/L)。在参考范围内。
肾功能:
- 血尿素氮:21.42 mg/dL(参考范围:8 - 23 mg/dL)。在参考范围内。
- 血清肌酐:0.74 mg/dL(参考范围:0.6 - 1.2 mg/dL)。在参考范围内。
血清电解质:
- 钠 (Na⁺):144.00 mmol/L(参考范围:136 - 142 mmol/L)。高于参考范围。
- 钾 (K⁺):3.90 mmol/L(参考范围:3.5 - 5.0 mmol/L)。在参考范围内。
- 钙 (Ca²⁺):9.68 mg/dL(参考范围:8.5 - 10.2 mg/dL)。在参考范围内。
- 镁 (Mg²⁺):2.31 mg/dL(参考范围:1.3 - 2.1 mg/dL)。高于参考范围。
代谢指标:
- 葡萄糖:90.36 mg/dL(参考范围:70 - 110 mg/dL)。在参考范围内。
肝功能及酶:
- 天冬氨酸氨基转移酶 (AST):25.00 IU/L(参考范围:10 - 30 IU/L)。在参考范围内。
- 丙氨酸氨基转移酶 (ALT):23.00 IU/L(参考范围:10 - 40 IU/L)。在参考范围内。
- 白蛋白:4.42 g/dL(参考范围:3.5 - 5.0 g/dL)。在参考范围内。
- 总胆红素:0.99 mg/dL(参考范围:0.3 - 1.2 mg/dL)。在参考范围内。
- 乳酸脱氢酶 (LDH):202.00 IU/L(参考范围:100 - 200 IU/L)。高于参考范围。
治疗情况:
- 使用抗生素:是。
- 使用镇静剂:否。
- 使用血管加压药:否。
- 使用糖皮质激素:是。
- 进行有创操作:是。
- 所有呼吸支持措施:无。
- 最高级别呼吸支持:无。

1. 您预测该患者发生谵妄的可能性:
步骤2:参考多智能体AI报告后的临床判断(AI报告为DeLiriuMAgents输出

下面是患者的中文病历描述与AI报告:
2. 此处电子病历描述与步骤1中相同, 是否需要重新阅读:
电子病历描述:

患者被收入急诊重症监护室 (ED-ICU)。以下电子健康记录数据代表患者在 ED-ICU 住院期间电子健康记录中记录的首批可用数值。这些数据包括人口统计学信息、生命体征、实验室检查结果以及治疗或干预措施:

- 患者 ID:B0196。
- 性别:男。
- 年龄:69 岁。
- 种族:亚裔。
- 主诉:胸痛、腹痛、呼吸困难、发热、呕吐、咳嗽、咳痰。
- 合并症:糖尿病、高血压。
- 改良早期预警评分 (MEWS):1 分。(MEWS 根据生命体征和意识水平评估临床恶化风险。MEWS < 5 分通常表示恶化风险较低,而 MEWS ≥ 5 分则提示风险较高,需要密切监测或治疗。MEWS ≥ 9 分与死亡风险显著增加相关。)
格拉斯哥昏迷量表 (GCS) 评分:
- GCS 运动反应:6 分。(范围:1-6 分;分数越低表示运动反应越差。)
- GCS 语言反应:5 分。(范围:1-5 分;分数越低表示语言反应越差。)
- GCS 睁眼反应:4 分。(范围:1-4 分;分数越低表示睁眼反应越差。)
- GCS 总分:15 分。(GCS 总分评估意识水平。分数范围从 3 分(深度昏迷)到 15 分(完全清醒且定向力正常)。15 分表示意识正常。)意识清醒。)
生命体征:
- 心率:86.00 次/分(参考范围:60 - 100 次/分)。在参考范围内。
- 收缩压 (SBP):141.00 mmHg(参考范围:90 - 120 mmHg)。高于参考范围。
- 舒张压 (DBP):92.00 mmHg(参考范围:60 - 80 mmHg)。高于参考范围。
- 呼吸频率:15.00 次/分(参考范围:12 - 20 次/分)。在参考范围内。
- 体温:36.00 °C(参考范围:36 – 37.3 °C)。在参考范围内。
- 血氧饱和度 (SpO2):96.00 %(参考范围:95 - 100 %)。在参考范围内。实验室检查:
血液学:
- 红细胞压积:47.00%(参考范围:35.0 - 50.0%)。在参考范围内。
- 血红蛋白:13.80 g/dL(参考范围:12.0 - 18.0 g/dL)。在参考范围内。
- 血小板计数:262.00 ×10^9/L(参考范围:150 - 350 ×10^9/L)。在参考范围内。
- 白细胞计数:7.00 ×10^9/L(参考范围:4.5 - 11 ×10^9/L)。在参考范围内。
肾功能:
- 血尿素氮:21.42 mg/dL(参考范围:8 - 23 mg/dL)。在参考范围内。
- 血清肌酐:0.74 mg/dL(参考范围:0.6 - 1.2 mg/dL)。在参考范围内。
血清电解质:
- 钠 (Na⁺):144.00 mmol/L(参考范围:136 - 142 mmol/L)。高于参考范围。
- 钾 (K⁺):3.90 mmol/L(参考范围:3.5 - 5.0 mmol/L)。在参考范围内。
- 钙 (Ca²⁺):9.68 mg/dL(参考范围:8.5 - 10.2 mg/dL)。在参考范围内。
- 镁 (Mg²⁺):2.31 mg/dL(参考范围:1.3 - 2.1 mg/dL)。高于参考范围。
代谢指标:
- 葡萄糖:90.36 mg/dL(参考范围:70 - 110 mg/dL)。在参考范围内。
肝功能及酶:
- 天冬氨酸氨基转移酶 (AST):25.00 IU/L(参考范围:10 - 30 IU/L)。在参考范围内。
- 丙氨酸氨基转移酶 (ALT):23.00 IU/L(参考范围:10 - 40 IU/L)。在参考范围内。
- 白蛋白:4.42 g/dL(参考范围:3.5 - 5.0 g/dL)。在参考范围内。
- 总胆红素:0.99 mg/dL(参考范围:0.3 - 1.2 mg/dL)。在参考范围内。
- 乳酸脱氢酶 (LDH):202.00 IU/L(参考范围:100 - 200 IU/L)。高于参考范围。
治疗情况:
- 使用抗生素:是。
- 使用镇静剂:否。
- 使用血管加压药:否。
- 使用糖皮质激素:是。
- 进行有创操作:是。
- 所有呼吸支持措施:无。
- 最高级别呼吸支持:无。




多智能体系统DeLiriuMAgents输出的AI报告

急诊科ICU谵妄风险预测临床报告

#### 1. **最终风险评估**
综合机器学习预测、多学科医师评估和现有医学证据,该患者在急诊重症监护室住院期间**不太可能发生谵妄**。我给出的**主观风险概率为0.22**,**置信度为0.85**。
此判断整合了三个一致的数据流:
- 机器学习模型预测谵妄风险较低(概率0.25,置信度0.764),该预测基于患者正常的神经功能(格拉斯哥昏迷评分15)以及未接受高风险干预。
- 三位医生(急诊科、神经内科、精神科)一致认为谵妄风险较低,强调患者意识清醒且病情稳定,即使存在感染/炎症诱因。
- 已检索到的医学证据证实了风险因素(年龄、感染),但也证实了正常的氧合、未使用镇静剂以及认知功能良好可以降低这些风险。
该风险在临床上意义不大。鉴于患者的年龄和感染情况,保持警惕仍然至关重要,但目前不存在迫在眉睫的谵妄威胁,因此可以专注于原发疾病的治疗。
---
#### 2. **关键变量**
风险分层中有三个关键变量:
1. **格拉斯哥昏迷量表 (GCS) 总分 [15]**:具有很强的保护作用。正常的 GCS 评分可以排除急性脑病,表明患者注意力集中且执行功能良好——这是预防谵妄的关键防御机制。从病理生理学角度来看,这反映了皮质丘脑连接的完整,降低了感染或应激引发的神经递质失衡的易感性。
2. **使用抗生素[存在]**:中等风险因素。虽然表明存在活动性感染(发热、咳痰),可能通过细胞因子驱动神经炎症,但正常的白细胞计数和血流动力学稳定性减轻了其影响。由于存在代偿因素,该变量的权重有所降低。
3. **机械通气状态[无]**:具有保护作用。避免了呼吸机相关性镇静、缺氧和昼夜节律紊乱。经验证据证实,在重症监护环境中,不使用呼吸机可使谵妄风险降低50%以上。
---
#### 3. **基于证据的推理链**
**患者病情(电子病历):** 这位69岁的男性患者出现感染症状(发热、咳嗽),需要使用抗生素和糖皮质激素——已知这些药物会通过神经炎症途径诱发谵妄。然而,他的神经系统基线状态良好(格拉斯哥昏迷评分15分,无认知波动),生命体征/代谢指标也未显示急性不稳定(改良早期预警评分1分,氧合正常,无酸中毒)。轻度高钠血症(血钠144 mmol/L)和高镁血症(血镁2.31 mg/dL)无临床严重程度,因为肾功能正常。
**医师共识:** 三位专科医师一致认为谵妄的可能性很小。急诊医师强调神经系统稳定性具有保护作用,超过了感染风险;神经科医师强调没有脑病诱因;精神科医生注意到患者意识清醒,从而最大限度地降低了与年龄相关的脆弱性。共识源于对格拉斯哥昏迷评分(GCS)15分和未使用镇静剂的共同重视——这些基石已得到文献验证。
**证据整合:**检索到的医学知识强化了年龄作为独立危险因素(每增加10岁,>65岁,OR值为1.6),但同时也明确了低氧血症(SpO₂ <90%)比单纯感染更能诱发谵妄。患者的SpO₂(96%)和未进行通气排除了这种机制。由于未使用镇静剂,苯二氮卓类药物的风险可以忽略不计。因此,证据支持低风险评估。
---
#### 4. **需要监测的因素** 24-48小时内的关键监测目标包括:
- **感染轨迹**:体温变化趋势、白细胞计数和培养结果;感染加重可能会加剧神经炎症。
- **神经系统状态**:每 8 小时进行格拉斯哥昏迷评分 (GCS) 评估;任何眼动/语言/运动功能下降都可能提示谵妄的发生。
- **代谢稳定性**:钠和镁水平可能因轻度升高而受到影响;快速波动可能诱发脑病。
- **医源性暴露**:新使用的镇静剂或糖皮质激素可能干扰认知功能。
---
#### 5. **初步干预建议**
**非药物策略:**
- 恢复昼夜节律:尽量减少夜间干扰,确保白天光照。
- 认知刺激:使用时钟/与家人互动来重新调整日常作息;如果腹痛缓解,尽早活动。
- 降低噪音:限制闹钟和夜间检查次数,以保护睡眠结构。
**药物调整:**
- 避免使用苯二氮卓类药物或催眠药;如果再次需要进行侵入性操作,应优先使用非镇静性镇痛药。
- 监测糖皮质激素的作用:即使谵妄风险较低,也应评估是否存在躁动或情绪变化。**会诊流程:**
- 除非格拉斯哥昏迷评分 (GCS) 下降或出现精神症状,否则无需进行正式的神经科/精神科会诊。
**风险预警:**
- **无需**启动高危谵妄流程。每 12 小时进行一次常规的重症监护病房 (ICU) 评估。

3. 基于病历资料和AI报告,您预测该患者发生谵妄的可能性:
4. AI报告是否改变了您的判断?
5. 若您的判断发生变化,AI报告让您改变原先判断的理由是?(可多选)
6.
在AI报告影响您判断的因素中,以下哪些具体内容最关键?(可多选):
步骤3:AI报告质量评价

下面是AI的预测报告:
7. 此处AI报告与步骤2中相同, 是否需要重新阅读:

多智能体系统DeLiriuMAgents输出的AI报告

急诊科ICU谵妄风险预测临床报告

#### 1. **最终风险评估**
综合机器学习预测、多学科医师评估和现有医学证据,该患者在急诊重症监护室住院期间**不太可能发生谵妄**。我给出的**主观风险概率为0.22**,**置信度为0.85**。
此判断整合了三个一致的数据流:
- 机器学习模型预测谵妄风险较低(概率0.25,置信度0.764),该预测基于患者正常的神经功能(格拉斯哥昏迷评分15)以及未接受高风险干预。
- 三位医生(急诊科、神经内科、精神科)一致认为谵妄风险较低,强调患者意识清醒且病情稳定,即使存在感染/炎症诱因。
- 已检索到的医学证据证实了风险因素(年龄、感染),但也证实了正常的氧合、未使用镇静剂以及认知功能良好可以降低这些风险。
该风险在临床上意义不大。鉴于患者的年龄和感染情况,保持警惕仍然至关重要,但目前不存在迫在眉睫的谵妄威胁,因此可以专注于原发疾病的治疗。
---
#### 2. **关键变量**
风险分层中有三个关键变量:
1. **格拉斯哥昏迷量表 (GCS) 总分 [15]**:具有很强的保护作用。正常的 GCS 评分可以排除急性脑病,表明患者注意力集中且执行功能良好——这是预防谵妄的关键防御机制。从病理生理学角度来看,这反映了皮质丘脑连接的完整,降低了感染或应激引发的神经递质失衡的易感性。
2. **使用抗生素[存在]**:中等风险因素。虽然表明存在活动性感染(发热、咳痰),可能通过细胞因子驱动神经炎症,但正常的白细胞计数和血流动力学稳定性减轻了其影响。由于存在代偿因素,该变量的权重有所降低。
3. **机械通气状态[无]**:具有保护作用。避免了呼吸机相关性镇静、缺氧和昼夜节律紊乱。经验证据证实,在重症监护环境中,不使用呼吸机可使谵妄风险降低50%以上。
---
#### 3. **基于证据的推理链**
**患者病情(电子病历):** 这位69岁的男性患者出现感染症状(发热、咳嗽),需要使用抗生素和糖皮质激素——已知这些药物会通过神经炎症途径诱发谵妄。然而,他的神经系统基线状态良好(格拉斯哥昏迷评分15分,无认知波动),生命体征/代谢指标也未显示急性不稳定(改良早期预警评分1分,氧合正常,无酸中毒)。轻度高钠血症(血钠144 mmol/L)和高镁血症(血镁2.31 mg/dL)无临床严重程度,因为肾功能正常。
**医师共识:** 三位专科医师一致认为谵妄的可能性很小。急诊医师强调神经系统稳定性具有保护作用,超过了感染风险;神经科医师强调没有脑病诱因;精神科医生注意到患者意识清醒,从而最大限度地降低了与年龄相关的脆弱性。共识源于对格拉斯哥昏迷评分(GCS)15分和未使用镇静剂的共同重视——这些基石已得到文献验证。
**证据整合:**检索到的医学知识强化了年龄作为独立危险因素(每增加10岁,>65岁,OR值为1.6),但同时也明确了低氧血症(SpO₂ <90%)比单纯感染更能诱发谵妄。患者的SpO₂(96%)和未进行通气排除了这种机制。由于未使用镇静剂,苯二氮卓类药物的风险可以忽略不计。因此,证据支持低风险评估。
---
#### 4. **需要监测的因素** 24-48小时内的关键监测目标包括:
- **感染轨迹**:体温变化趋势、白细胞计数和培养结果;感染加重可能会加剧神经炎症。
- **神经系统状态**:每 8 小时进行格拉斯哥昏迷评分 (GCS) 评估;任何眼动/语言/运动功能下降都可能提示谵妄的发生。
- **代谢稳定性**:钠和镁水平可能因轻度升高而受到影响;快速波动可能诱发脑病。
- **医源性暴露**:新使用的镇静剂或糖皮质激素可能干扰认知功能。
---
#### 5. **初步干预建议**
**非药物策略:**
- 恢复昼夜节律:尽量减少夜间干扰,确保白天光照。
- 认知刺激:使用时钟/与家人互动来重新调整日常作息;如果腹痛缓解,尽早活动。
- 降低噪音:限制闹钟和夜间检查次数,以保护睡眠结构。
**药物调整:**
- 避免使用苯二氮卓类药物或催眠药;如果再次需要进行侵入性操作,应优先使用非镇静性镇痛药。
- 监测糖皮质激素的作用:即使谵妄风险较低,也应评估是否存在躁动或情绪变化。**会诊流程:**
- 除非格拉斯哥昏迷评分 (GCS) 下降或出现精神症状,否则无需进行正式的神经科/精神科会诊。
**风险预警:**
- **无需**启动高危谵妄流程。每 12 小时进行一次常规的重症监护病房 (ICU) 评估。

角度A. Clinical accuracy(临床准确性)

8. 报告对谵妄风险相关医学解释的准确性:
9. 您认为该报告是否存在“幻觉”?
10. 若“有”,请指出可能错误信息出现在哪里(可多选):
11. 请描述您在AI报告中发现的可能错误信息:
角度B. Reasoning quality(推理质量)

12. 推理逻辑连贯性(前后是否一致、因果链是否清晰):
13. 证据支撑与可追溯性(结论是否能回溯到病历事实/关键特征/检索证据,而非“凭空推断”):
角度C. Overall usefulness(总体有用性)

14. AI报告会不会帮助提高您的效率:
15. AI报告的内容设计(长度、逻辑等)是否合理:
16. 在真实急诊流程中,您将DeLiriuMAgents作为决策辅助工具使用的意愿:
更多问卷 复制此问卷