应急响应:全员在线的72小时——从事故中学到的SOP与组织韧性

“一级告警!XX医院HIS系统,门诊挂号功能不可用!”

上午九点十七分,运维中心的红色灯牌亮了。

值班工程师小王,看了一眼告警,心跳加速。

这不是普通故障,是业务中断

他做的第一件事,不是去查原因,而是拿起电话,打给项目经理小张、技术负责人老周、客服主管。

“一级告警,门诊挂号不可用。我已经确认,不是网络问题,不是负载均衡问题,是挂号接口超时。”

挂掉电话,他又在应急响应群里发了标准化消息:

“`
【一级响应】XX医院门诊挂号不可用。
当前时间:09:18
影响范围:全部门诊窗口(20个)
受影响业务:挂号、预约、取消
初步判断:挂号微服务异常
我已 actions:
– 排查挂号服务日志
– 通知信息科李主任
– 准备回滚到旧版本

请求支援。
“`

这是软佳”应急响应SOP”的第一步:告警→确认→通报→初步行动

1. 九点二十分:第一次事故会

九点二十分,应急响应群已经@了12人。

小张(项目经理)Establish 语音会议。

参会者:

– 老周(技术负责人)

– 小王(值班工程师)

– 小李(DBA)

– 小吴(网络工程师)

– 小赵(开发工程师)

– 信息科李主任

– 信息科网络管理员老陈

小张主持会议,一句话概括当前情况:

“挂号微服务持续报错:’数据库连接超时’。已经重启服务一次,没用。数据库连接池使用率持续100%。”

“小李,数据库什么情况?”

“挂号数据库CPU 95%,有大量慢查询。执行计划显示,某个查询走了全表扫描。”

“是什么查询?”

“查询患者的’已挂号记录’,用于在挂号界面显示历史。平时这个查询很快,但今天慢。”

“为什么今天慢?数据量暴增了吗?”

“数据量没变,但查询条件变了。今天挂号界面新增了一个’按科室筛选’功能,查询语句加了WHERE department_id = ?条件。这个字段没有索引。”

小赵(开发)突然说:”这个功能是上周五晚上紧急加上的,为了配合省卫健委的数据上报要求。我们没想到会影响这个查询。”

老周打断:”现在不是说谁责任的时候。小王,能否临时关闭’科室筛选’功能,恢复旧逻辑?”

“可以,但需要改代码上线。”

“多快?”

“热更新,5分钟。”

“做。”

2. 上午十点:第二次事故会

五分钟后,’科室筛选’功能关闭,查询恢复旧逻辑。

数据库CPU降到60%,挂号接口响应时间从15秒降到2秒。

但问题没完全解决——2秒还是太慢,正常应该<500毫秒。

“这个查询还有其他地方慢。”小赵说,”还有几个查询也慢,都是因为没有索引。”

“需要加索引。”小赵说。

“加索引需要锁表,能在线加吗?”老周问。

“可以online DDL,但会有短暂性能影响。”

“那就加。但增量加,先加最关键的三个索引,观察影响,再加其他的。”

他们制定了”索引热加”计划:

1. 先给patientvisits表的departmentid字段加索引(最关键)

2. 等待5分钟,观察性能

3. 如果正常,再加第二个、第三个

第一个索引加到一半,出事了。

数据库日志报错:”磁盘空间不足,无法创建索引”。

小李查磁盘空间:数据盘剩余5%,索引创建需要20%的额外空间。

“清理空间!”老周吼道。

清理什么?

– 清理归档日志(但归档日志是必须的,不能删)

– 清理临时表空间(有临时表可以删)

– 增加磁盘?不可能,物理机硬盘满了

他们决定:临时删除三个最占空间的非核心索引,腾出空间给新索引用。

这些索引是历史遗留,很少用,但删了再建也得时间。

更麻烦的是,删索引也会锁表(虽然时间短,几秒钟),但期间系统性能会雪崩。

“能不能不删,把旧索引挪到其他磁盘?”

不行,没有其他磁盘。

老周咬牙:”删,然后立刻建新的。窗口期只有10分钟。”

3. 中午十二点:第三次事故会

第一个新索引建好。

效果立竿见影:那个慢查询从2秒降到100毫秒。

但系统还是不流畅。

小王说:”有一个’统计查询’接口,平时10秒一次,现在15秒,超时了。”

这个接口,是领导看实时门诊量的,不直接影响患者,但影响领导决策(院长要看数据)。

查日志:这个查询很复杂,联查了六张表(患者、挂号、科室、医生、付费状态、退号标志),而且没索引。

“这个查询不能加索引吗?”老周问。

“可以,但涉及的字段多,需要组合索引,而且查询条件不固定(可以按时间、科室、医生任意组合),很难优化。”

“能不能把这个查询移出去,不要实时查?”

“但领导要实时看。”

小张说:”我们先加个临时缓存,把这查询结果缓存10分钟。同时,跟信息科沟通,让他们理解,这个数据有10分钟延迟。”

李主任同意了。

但缓存加好后,发现数据不对——统计口径问题(重复计数了)。

“这个查询的SQL有bug,统计了重复数据。”小吴说。

“那怎么办?重写?”

“重写需要测试,不敢直接上。”

“那就先关掉这个统计接口,等会后修复。”

4. 下午两点: blamed 会议

门诊终于恢复了正常。

患者能挂上号,医生能看诊,药房能发药。

但信息科杨院长,召开了”事故分析会”。

参会的不只是信息科,还有软佳的全体相关人员。

杨院长问:”为什么好端端的,一个’科室筛选’功能,能把系统搞崩?”

小赵解释:”我们没考虑到那个查询的索引…”

“你们测试的时候,没有性能测试吗?”

“有,但测试环境数据量只有生产的10%,没发现慢。”

杨院长转向老周:”你们软佳,交付前不是有’压测’吗?”

老周低头:”压测是做的,但场景不够全。’科室筛查’这个新功能,我们没压测。因为它是上线后一周才加的(为了满足新规),跳过了性能测试。”

“为什么没压测?”

“因为它是变更频繁的功能,我们以为只是个小改动…”

杨院长叹了口气:”小改动?现在门诊受影响,病人等了两小时。这是小改动吗?”

会议室很安静。

老周知道,这是他们的错。

5. 三个小时,写出事故报告

会后,小张带着团队,写事故报告。

根因:

1. 新功能’科室筛选’引入,未做性能评估(假设数据量不变)

2. 相关查询缺少索引

3. 磁盘空间不足(5%),限制应急响应速度

4. 慢查询监控有,但告警阈值设得太高(5秒以上才告警),等发现已经晚了

整改措施(48小时内生效):

1. 所有SQL变更,必须走性能评估(执行计划分析+小数据量验证)

2. 建立”索引变更SOP”:加索引→监控→评估→推广

3. 建立”磁盘空间预警”:低于20%告警,低于10%自动清理临时文件

4. 所有功能变更,必须包含”性能测试用例”,压测通过才能上线

5. 慢查询监控阈值从5秒降到1秒

报告发给杨院长。

杨院长看完,回了一句:”希望这是最后一次。”

6. 事后,我们改了”变更流程”

老周在部门内复盘,说:

“这次事故,表面是技术问题,根子是变更管理流程缺失。”

我们有个流程:需求→开发→测试→上线。

但测试环节,只测功能,很少测性能。

性能测试, normally 是上线前专门做一次。但这次’科室筛选’是上线后一周才加的(为了满足新规),跳过了性能测试。

所以,我们要加一个环节:任何影响数据库查询的变更,必须附上’执行计划分析’和’索引影响评估’

不能开发说”我觉得没问题”,要有客观数据。

而且,我们要建立’慢查询门禁’:新功能上线后,第一个月的慢查询数,不能超过 baseline 的150%。超过,自动回滚。

7. 72小时应急响应的”黄金法则”

这次事件后,软佳完善了”应急响应SOP”:

一级告警(业务中断)流程:

1. 5分钟内确认(值班人员)

2. 15分钟内建立应急群,相关人员到位

3. 30分钟内临时恢复(降级、回滚、扩容)

4. 2小时内根因定位

5. 24小时内根治方案上线

二级告警(性能严重下降)流程:

1. 15分钟内确认

2. 1小时内临时缓解

3. 4小时内根因定位

4. 24小时内优化上线

三级告警(功能异常):

1. 1小时内确认

2. 24小时内解决

值班制度:

– 7×24小时值班(每班1人)

– 值班人员必须持有”应急启动U盾”,有权启动回滚

– 升级机制:15分钟内解决不了,自动升级到项目经理

8. 组织韧性:从”救火队”到”防火队”

这次事故后,软佳成立了”应急响应小组”,常设。

成员:

– 运维负责人(组长)

– DBA

– 网络工程师

– 核心开发

– 客户成功经理

每月一次演练,模拟各种场景:

– 数据库死锁

– Redis宕机

– 网络中断

– 磁盘满

– 应用OOM

演练后写报告,改进流程。

老周说:”应急能力,不是天生的,是练出来的。

9. 事故的”正面价值”:警醒与改进

杨院长后来在一次医院信息会议上说:

“那次挂号故障,虽然只影响了两个小时,但让我们 seeing 了软佳团队的责任心——凌晨两点还在查问题,第二天就给了整改报告。”

“也让我们 seeing 了自己的IT管理问题——磁盘空间监控一直没重视。”

“坏事变好事。”

10. 给所有技术管理者的建议:应急不是运气,是准备

老周最后的总结:

没有不出问题的系统,只有出问题后能不能快速恢复的系统。

应急响应的核心,不是”技术多牛”,是:

1. 流程清晰——每个人知道自己该干什么

2. 工具趁手——有监控、有告警、有回滚按钮

3. 授权充分——值班人员有权启动预案,不需要层层请示

4. 演练真实——不是走过场,是真模拟

“这次72小时,我们救了系统,也救了客户信任。”

互动话题

你经历过最严重的业务中断事故是什么?怎么处理的?有什么经验?

> 基于真实医院场景改编,人物均为化名


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

分诊台的革命:从手工登记到智能调度的转身

早上8点45分,江苏南京XX区第二医院的门诊大厅已经像早市般喧闹。护士李大姐站在分诊台后,额头上沁出细密的汗珠。她左手紧紧攥着昨晚准备好的纸质表格——整整三大本,每本要填写姓名、年龄、性别、主诉等十几项信息;右手握着一支 worn-out 的圆珠笔,笔尖在纸上划出沙沙的声响。

“李姐,今天又是你班啊?”新来的实习护士小陈抱着一叠病历夹经过,气喘吁吁地打招呼。

“可不是嘛,今天周一,人最多。”李大姐直起腰,叹了口气,揉着酸胀的颈椎,”你说这都什么年代了,怎么还得手写?我这本子开个头,三天就写满了。”

话音未落,门诊大厅的玻璃门轰然推开,一群患者涌进来。有抱着孩子的年轻妈妈,有拄拐杖的老爷爷,有捂着肚子的中年男子。嘈杂声瞬间吞没了李大姐的话——找窗口的、问该挂哪个科的、抱怨排队长度的,七嘴八舌像一锅煮沸的粥。

李大姐深吸一口气,快步走到分诊台中央,提高了嗓门:”大家别急,先填表!”她左手抓起一张空白表格递给最前面的患者,右手同时拿起笔准备记录。一位中年女子凑近,语速飞快:”我头痛头晕三天了,今天特别厉害。”

“头痛头晕…”李大姐一边快速在表格上写下关键词,一边抬头看了女子一眼——脸色苍白,眼神涣散。她立刻拿起桌上的电话,手指熟练地按着号码:”神经内科吗?这里有患者头痛伴头晕,需要优先安排……”

挂掉电话,她转身继续处理队伍。一个 teenage boy 挤过来:”我嗓子疼,发烧。”李大姐扫了他一眼:”咳嗽发烧去呼吸科。”话音未落,一位中年男子捂着胸口跌跌撞撞闯进来:”医生!我胸痛!”

李大姐心头一紧,扔下笔就跑过去扶住他:”胸痛?持续多久了?”男子脸色发青:”半小时…像压了块大石头…”李大姐立即蹲下身,用座机拨通急诊科:”这里是分诊,有个急性胸痛患者,男性,约50岁,需要马上……”

她的话被另一头的呼叫打断。9点30分,门诊部主任张主任快步走来,脸色阴沉。他一把扯住李大姐的袖子,声音压得很低:”李姐,今天投诉电话3起了,都是说分诊不准确,患者挂错号。院长很生气。”

李大姐心里一沉,手指紧紧攥着圆珠笔,指节发白。她当然知道压力如山——高峰期每分钟要接待10+患者,还要接电话、回答咨询、处理急症。人脑不是服务器,怎么可能不犯错?

更让她崩溃的是,每天下班前,她要把这三本纸质表格里的300+条记录逐一录入电脑,交给信息科。昨晚她熬到10点,今天早上6点又爬起来补录。有时候字写得潦草,自己第二天都看不清:”这是’咳嗽’还是’哮喘’?”患者挂错号后重新排队,投诉如潮水般涌来。

“我们这个状态,撑不了多久。”李大姐对隔壁的护士小声说,眼睛盯着正在吞云吐雾的导诊屏——那上面密密麻麻的名字,每一个都可能出错,每一个都可能引发投诉。

信息科王主任早就注意到了问题。过去一年,他收到12起关于分诊错误的投诉,其中3起导致患者跑错科室、延误诊疗。

“我们需要一个智能分诊系统。”王主任在院务会上说。

院长问:”市场上有成熟方案吗?”

“有,软佳门诊管理系统的挂号分诊模块,很多医院在用。”王主任说,”但我知道,一线护士最怕新系统——又是学习,又是改变习惯。”

确实,当王主任把”上线智能分诊系统”的消息告诉李大姐时,她的第一反应是拒绝。

“我干了15年护士,不用电脑也能分!现在又要学?”李大姐说,”再说,出了问题谁负责?机器能判断病情轻重吗?”

王主任理解她的抵触,但他也知道,手工分诊的错误率和劳动强度已经不可持续。

“李姐,我理解你的担心。”王主任说,”但咱们这样子,每天要处理300+患者,错误率大概在5%左右——也就是每天15个患者挂错号。这15个人要重新挂号,又要重新排队,投诉就是这么来的。

“而且,你每天下班后还要花1小时录表格,这时间本该是休息的。”

李大姐沉默了。她当然知道辛苦,但改变意味着不确定性。

“这样,”王主任说,”我们先试用一个月,如果不好用,咱们再换回来。而且,软佳会派人来培训,手把手教。”

软佳的培训工程师小陈,28岁,前一天刚到这家医院。

“李姐您好,我是软佳的小陈。这几天我主要在这边教大家用分诊系统。”

李大姐打量了他一眼:年轻,戴眼镜,看起来挺精神,但能懂我们护士的辛苦吗?

小陈没急着讲课,而是先在分诊台站了2小时,观察李大姐的工作流程。他记录下每一个痛点:

– 手工登记要写十几项信息,耗时平均40秒

– 患者主诉靠口头描述,不准确

– 危重患者识别依赖护士经验

– 叫号依赖人工,容易遗漏

第三天,小陈带来一台平板电脑,开始培训。他教李大姐:

1. 扫描患者身份证或医保卡,基本信息自动填入

2. 选择主诉症状,系统推荐科室(如”头痛、头晕”→神经内科)

3. 输入关键词后,系统提示风险等级(如”胸痛”自动标红)

4. 确认后,患者手机收到排队号和预计等待时间

“这…会不会太复杂了?”李大姐担心。

小陈笑着说:”李姐,您不用记那么多。最主要的是,选择主诉症状。其他都是系统自动的。”

头两天确实手忙脚乱——平板有时候点不动,网络偶尔卡顿,有些上年纪的患者不会操作需要帮着填。李大姐好几次想放弃。

但到了第五天,她发现事情在变好

– 叫号不再漏人,系统按顺序来

– 患者手机收到消息,不用一直盯着屏幕

– 危重患者自动标红,她可以优先处理

– 最让她满意的是:不再需要下班后录表格——所有数据实时入库,信息科直接导出

“奇怪,患者也不像以前那样嚷了。”李大姐对同事说。

小陈解释:”因为等待时间更可预测了。系统计算的等待时间是动态的,患者心里有底,就不会急。”

一个月试用期结束,王主任召集了一次全面的效果评估。他调取系统后台数据:

指标 手工分诊(原) 智能分诊(现) 变化
平均分诊时间 40秒/人 15秒/人 -62.5%
挂错号率 5.2% 1.3% -75%
危重患者识别准确率 约70% 98% +28%
护士每小时处理人次 40 90 +125%
患者投诉(分诊相关) 月均3起 0 -100%
分诊员下班后额外工作 1小时/天 0 -100%

王主任在科室会上公布这些数据时,李大姐坐在第一排,脸上有掩饰不住的骄傲。

“我知道,一开始很多人怀疑,包括我。”李大姐站起来说,”但现在我可以说,这系统真的帮了我们大忙。我不再是’分诊机器’,而是可以真的去观察患者、帮助有需要的人。”

她转向同事们:”以前我们忙得连轴转,现在有精力做健康咨询了。患者也更配合,因为流程透明。”

价格问题,王主任在一次对外交流时被问到。

“你们这套系统,年费多少?”

“软佳门诊管理系统,中文版1898元/年,国际版1299美元/年。”王主任答。

对方愣了一下:”这么便宜?我们医院用的某品牌,光分诊模块就是3万。”

王主任笑了:”这就是软佳的特点——全套门诊管理,一年不到2000。包含挂号分诊、医生工作站、药房、收费、报表,还有持续的技术支持。”

“那你们怎么盈利?”

“薄利多销,而且我们是订阅制,客户续费率很高。”王主任说,”关键是,客户觉得值。”

后来,这家医院的门诊量增长让王主任意外。患者口碑传播,加上分诊效率提升,医院在区域内的排名上升了。

一次行业会议上,李大姐作为”一线使用者”分享经验。她说:”我们护士最怕变,但这次变化让我明白:工具不是来替代人的,是来解放人的。

“以前我脑子里想的是’别出错、别漏人、别让患者骂’;现在我想的是’哪个患者神色不好?哪个是老人需要引导?哪个流程还能再快一点?’

“系统把机械的工作拿走了,人就可以做只有人才能做的事——观察、关怀、判断。”

回想那段时间,李大姐感慨:抗拒改变是本能,但改变带来的自由,才是真正的收获

当一个人从重复劳动中解放,她才能看见更大的世界。

声明:本文基于真实医院场景改编,人物均为化名,数据为试点统计,实际效果因机构规模、流程、人员素质而异。

核心金句:

“分诊不是简单的’排队叫号’,而是门诊资源的智能调度。”

“最好的工具,是让人忘记工具的存在。”

“从手工到智能,解放的不是时间,是人的注意力。”

互动话题:

贵院的门诊分诊,目前是手工还是系统?最大的痛点是什么?

如果分诊时间缩短60%,对您的护士团队意味着什么?

您认为智能分诊最难推行的障碍是技术、成本,还是人的习惯?


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。