患者流失谜题：看完即失联，60%患者不再回头

2026年5月26日2026年6月2日 Leave a comment

“病人看完就走了，我们不知道他们好了没有，会不会再来。慢性病患者该复诊了也找不到人，很多就这样流失了。”

2026年5月10日上午10点15分，四川成都XX门诊办公楼三楼会议室， Monthly 质量分析会正在进行。护士长赵大姐，42岁，穿着淡蓝色护士服，手里拿着本季度的复诊率报表，站起身，声音里带着疲惫和无奈。她刚翻开报表第5页，抬头看向坐在对面的信息科小胡。

“小胡，我们系统有随访功能吗？”赵大姐合上报表，目光扫过会议室所有人，”我们15个护士，每天忙得连轴转，输液、换药、接电话，可患者看完就走了。高血压糖尿病这些慢病患者，该复诊了也找不到人。很多就这样流失了。”

小胡，28岁，刚来门诊一年，穿着格子衬衫，低头翻了翻系统手册，摇头：”赵姐，旧系统没有随访模块。我们现在用Excel登记，但follow-up率不到30%。很多患者电话空号，有的不愿接，护士打10个电话能打通3个就不错了。”

窗外传来门诊大厅的嘈杂声和叫号提示音。此时正是工作日高峰，大厅里坐满了等待的患者，护士站电话铃此起彼伏。医务科长补充：”我们统计过，门诊患者复诊率只有40%，意味着60%看完一次就流失。如果能提高到60%，年营收能增加30%以上。”

财务科刘主任推了推眼镜，接过话：”赵大姐，我们都想解决随访问题。但人力有限，15个护士日常工作已饱和，不可能再分配给随访大量时间。而且，患者数据分散在不同科室，各自为政，汇总困难。”

赵大姐站起身，走到白板前，拿起记号笔写下”随访困境”四个字，然后画了一个流程：患者就诊→离院→无后续跟进→流失。

“我们试过手工随访，但问题太多。”她边写边说，”护士日常工作already满负荷，随访经常被’搁置’；不同科室数据不统一，有的用Excel有的用笔记本；随访内容随意，记录难追溯；患者有问题转给医生后无跟踪。”

她转过身，面向参会所有人：”更关键的是，慢性病患者需要3个月复诊一次，但我们不知道哪些到期了，也没有人力去一一通知。上个月，我们高血压患者只有45%复诊率，糖尿病40%。如果提高到60%……”

院長敲了敲桌子：”赵大姐，你的意思我明白。但不是我们不重视，是人力真的不够。你有什么具体建议？”

“院长，我建议大家考虑引入软佳的智能随访模块。”赵大姐重新坐下，”上周信息科小胡给我演示了，可以自动生成随访任务，多渠道触达，还能记录随访结果。”

小胡点点头，打开笔记本电脑：”我来简单介绍一下……”

会议室陷入短暂讨论——有人担心隐私，有人质疑覆盖率，有人问成本。赵大姐看着眼前的困境清单：登记分散、任务遗忘、覆盖率低、无标准化、反馈不闭环、患者流失严重。她深吸一口气：随访已不仅是服务问题，更是营收和管理的生死线。旧模式已到极限，必须寻找系统性解决方案。

10点45分，会议结束。赵大姐收拾材料，心里盘算：如果软佳随访模块真能解决这些问题，门诊复诊率提升10%，就是几十万的增量收入。但如何说服同事们接受新系统？人力不足的顾虑怎么破？她边走边思考，决定下午约信息科小胡详细聊聊软佳的方案细节。

走廊里，阳光斜照。赵大姐知道，这场关于”患者是否离院即终止关系”的讨论，才刚刚开始。

困境：随访靠人工，效果堪忧

成都XX门诊位于成华区，是一家日接诊300人次的中型社区医院，服务周边3个小区。过去随访工作，靠护士手工登记、电话通知，工作量巨大但效果差。

赵大姐统计过她们护理部的工作缺口：

– 登记分散：不同科室各自为政，数据不统一，有的用Excel，有的用笔记本，汇总困难

– 任务遗忘：护士日常工作已饱和（输液、换药、接电话），随访经常被”搁置”，结果就是遗忘

– 覆盖率低：仅能随访30%患者，且多为住院患者（因为住院期间接触多）；门诊患者随访率更低，约15%

– 无标准化：随访内容随意，有的护士问5个问题，有的问2个，记录难追溯

– 反馈不闭环：患者有问题，转给医生后无跟踪，医生太忙，经常漏看

更糟的是：患者流失严重。据财务科测算，年复诊率约40%，意味着60%患者看完一次就流失。”如果复诊率能到60%，我们年营收能增加30%以上。”院长在会上说。

“慢性病患者，应该3个月复诊一次，但我们不知道哪些到期了，也没有人力去一一通知。”赵大姐对同事说，”我们15个护士，日常工作已饱和，不可能再分配给随访大量时间。”

转机：软佳的自动随访

2026年初，软佳升级门诊管理系统，新增智能随访模块。信息科小胡演示给赵大姐看。

“软佳能自动生成随访任务，多渠道触达，还能记录随访结果。”

小胡讲解：

规则配置：

– 按科室、疾病、医生设置规则

– 例如：

– “高血压患者，14天后随访”

– “糖尿病患者，30天后随访”

– “感冒患者，3天后电话回访”

– “术后患者，第3天、第7天、第30天随访”

“规则可以自定义，非常灵活。”

任务生成：

– 患者就诊结束，系统自动检查是否符合随访规则

– 符合则生成任务，分配给对应医生或护士

– 任务列表在护士端APP显示，按优先级排序

多渠道触达：

– 微信消息（公众号模板消息，患者免费用）

– 短信（无微信患者，自动发送）

– 电话（系统自动拨号，护士接通后话术提示）

“比如高血压患者，14天后系统自动发微信：’王阿姨，您的血压控制得怎样？记得15天后复诊哦。'”

随访记录：

– 患者回复（是/否/有症状）

– 护士记录沟通内容

– 结果标记（复诊预约、问题转医生）

“随访全过程留痕，管理层能看统计报表。”

赵大姐眼睛亮了：”这个能解决我们的困境。”

冲突：人力不足与系统信任

赵大姐向院长汇报：”引入软佳随访模块，年费已包含，无需额外付费。可以提升患者随访率，增强慢病管理。”

院长 questions:

– “系统自动发消息，患者会回吗？”

– “护士还要接电话，工作量不是增加了吗？”

– “隐私问题：随访内容涉及健康，会不会泄露？”

赵大姐一一回应：

– “软佳的随访消息是定制化，根据疾病写话术，患者感觉贴心，回复率比我们手工高”

– “电话随访可以设定每天 quotas（比如20个），不会无限增加；微信自动，不占用人力”

– “数据加密，随访记录在系统内，非授权人员看不到”

信息科补充：”软佳符合医疗数据安全规范，随访记录访问需权限。”

财务算账：

– 软佳年费1898元，随访模块免费

– 对比：如果请1个专职随访员，一年成本8万

– 节省8万，效果更好

“但我们护士已经忙不过来了。”护士长担忧。

“软佳随访能减少重复工作。”信息科小胡说，”比如患者咨询血压，随访中系统能记录，医生端也能看到，不用患者再打电话问。”

“而且随访能提前发现风险，减少急诊，反而减轻工作。”

经过讨论，院长拍板：上线随访模块，分阶段：

– 第一阶段：慢性病随访（高血压、糖尿病）

– 第二阶段：术后随访

– 第三阶段：满意度调查与反馈收集

蜕变：从30%到70%随访率

实施在5月进行，为期一个月。

配置：赵大姐和医生们一起设置随访规则：

– 高血压：诊断时标记，14天后微信随访，问血压值、用药情况、有无不适

– 糖尿病：30天后随访，问血糖控制、饮食情况

– 感冒：3天后电话随访，问是否康复

– 术后：第3、7、30天随访，记录恢复情况

培训：护士学习使用随访模块APP，查看任务、记录结果、转问题给医生。

试运行第一周：

– 系统自动生成任务136个

– 微信触达110人，电话触达26人

– 回复率：微信45%，电话70%

– 护士完成记录：85%

“比手工强多了。”赵大姐说。过去手工登记，随访率30%左右；现在系统辅助，两周随访率已达60%。

她展示数据：

复诊率变化（对比实施前3个月）：

– 高血压患者复诊率：45% → 58% (+13%)

– 糖尿病患者复诊率：40% → 53% (+13%)

– 患者满意度：72% → 85% (+13%)

“随访不只是完成任务，是维系关系。”赵大姐说。

一位高血压患者回复微信：”你们还关心我，我觉得这家医院好。”

更实用的效果：提前发现风险。某高血压患者随访回复：”今天头晕，血压180/110。”护士立即转给医生，医生电话邀约来院调整用药，避免了一次可能的脑梗。

“如果没随访，患者可能就硬扛了。”赵大姐后怕。

回响：随访成为新常态

三个月后，随访模块已成为门诊日常。

数据统计：

– 随访任务生成：平均每月320个

– 完成率：72%

– 回复率：微信50%，电话75%

– 因随访触发的复诊预约：占复诊总人数的18%

– 问题拦截：每月约5-8例潜在风险被提前发现

赵大姐在年终总结中说：”我们用0成本（人力上），建立了随访体系。”

“软佳的随访模块，让我们从’看病结束即终止’，变成了’持续健康管理’。”

“患者感觉被关心，更愿意再来；医生提前干预，减少并发症；医院口碑提升。”

她还发现一个 unexpected benefit：减少投诉。过去患者有问题无处诉说，随访给了他们反馈渠道。有患者提出候诊时间长，医院据此优化流程，投诉下降。

现在，赵大姐的随访工作不再是”打一堆电话”，而是：

– 看系统自动推送的任务列表

– 优先处理高危患者、问题反馈

– 记录随访结果，形成闭环

“人力节省了，效果提升了，何乐不为？”

当同行问赵大姐如何做随访，她会说：

“第一，自动规则：根据疾病设置随访时间点，系统自动生成，不用人工回忆

– 第二，多渠道：微信为主，电话为辅，覆盖不同人群

– 第三，闭环：随访结果转医生，问题有跟踪，不石沉大海

– 第四，零门槛：软佳全功能包含，不额外收费”

“最重要的是：把随访变成主动关怀，不是骚扰。”

回想那个随访率30%、手工登记混乱的时代，赵大姐感慨：技术解放人力，更提升温度。

软佳的随访模块，自动化、标准化、可追溯，让护士从重复劳动中解脱，专注于真正需要人情味的沟通。

“1898元/年，包含随访、提醒、记录、分析，性价比极高。”

声明：本文基于真实医院场景改编，人物均为化名，数据为试点统计，实际效果因机构规模、患者群体、规则设置而异。产品功能与价格截至2026年5月，请以官方最新信息为准。

核心金句：

“随访不是骚扰，是就诊结束后的延续关怀。”

“自动规则+多渠道触达，让随访效率提升一倍。”

“0额外成本，用软佳建立随访体系，提升复诊率。”

互动话题：

您的门诊有患者随访机制吗？随访率大概多少？

随访主要靠人工还是系统？效果如何？

随访中，您发现的最大问题是什么：人力、隐私、还是效果？

立即免费试用门诊系统：https://app.kmhis.com/
International Version：https://app.kmhis.com/multi/
了解软佳门诊管理系统详情：https://www.kmhis.com/outpatient-management-system.html

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想，要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

“实习生看到了院长病历”：一次权限危机后的系统重构

2026年5月20日2026年6月2日 Leave a comment

河北石家庄XX区第二人民医院的信息科马主任，永远不会忘记那个周五下午3点47分接到的那通紧急电话。

“马主任，出大事了！”医务科长声音颤抖，背景里能听见嘈杂的人声，”一个实习生，用教师电脑登录系统，点错了科室，居然看到了副院长的门诊病历！”

马主任后背瞬间一凉，手里的咖啡杯差点脱手。患者隐私是高压线，一旦泄露，医院要面临《个人信息保护法》的严厉处罚，最高营业额5%罚款，相关责任人可能被吊销执业执照。他”噌”地站起身，外套都来不及穿，抓起工牌就往门诊楼跑。

电梯里，他的大脑飞速运转：副院长是院领导班子成员，患者涉及高干保健——这个实习生看到了什么？有没有截图？有没有外传？

他赶到医务科时，副院长本人也在，脸色铁青。现场围了一圈人：医务科长、护理部主任、涉事实习生小张（20岁，护理大专实习生）、还有教师电脑的使用者——一位刚入职的住院医师。

“马主任，您必须给个说法！”副院长见到马主任的第一句话，”我的患者病历，为什么一个实习生能随便看到？我们系统的权限管理是摆设吗？”

马主任 inwardly 一沉。他太清楚问题了，只是一直没下决心解决。他让涉事各方分开做笔录，然后立刻返回信息科调取系统日志。

事情经过：

周三下午，6名护理实习生来医院参加培训。培训结束后，她们在教师电脑上练习系统操作。

其中一名实习生小张，想看看自己家人的门诊记录（她家人在本院就诊）。但她不熟悉系统，登录后不知道如何切换科室，误入了”副院长诊室”的工作站。

更糟糕的是，副院长的账号没有自动退出，系统保留了登录状态。小张点击后，直接进入了副院长的医生工作站。

“我本来是想查家人的记录，但进去后看到一堆患者病历，吓了一跳。”小张后来回忆。

她立即退出，但为时已晚——这个操作已被系统日志记录。

副院长周五查看日志时发现异常登录，立即上报。

事件定性：严重的患者隐私泄露风险。

院长震怒：”我们的系统，连实习生都能看到副院长的工作界面？权限管理是摆设吗？”

马主任无地自容。他太清楚问题了：

– 全院系统账号共200+个

– 很多医生离职，账号未及时禁用

– 新员工入职，直接给通用账号”医生”（该角色权限过大）

– 没有角色细分，所有临床医生同一角色

– 关键操作（如查看他人患者）无日志审计

“我们系统，就像个’大平层’，每个人都能进每个房间。”马主任在检讨会上说。

院长下命令：”两周内，必须解决权限问题。否则，你信息科 principali 负责。”

马主任开始紧急调研。

他联系了3家系统厂商，询问权限管理方案：

厂商A（某国产大厂）：可以配置角色，但需要定制开发，费用8000元/人天，周期1个月。

厂商B（旧系统提供商）：不支持细粒度权限，建议”加强账号管理，不要乱给账号”。

软佳：内置RBAC（基于角色的访问控制），角色预设、权限隔离、操作审计全有，标准配置，无需定制，2周内可上线。

马主任选择了软佳，原因很简单：他们正好有完整的权限管理方案，且不要额外费用。

软佳的安全专家老周，带着两名顾问，一周内完成了对医院权限现状的诊断和方案设计。

老周说：”问题的核心是’一重在干，权限乱给’。解决方案：角色预设 + 最小权限 + 数据隔离 + 审计追溯。”

具体如下：

1. 角色预设（15种标准角色）

系统内置了15种角色，对应不同岗位。开箱即用，无需配置：

角色	权限说明	典型用户
挂号员	预约、挂号、签到、改签	前台
分诊护士	分诊、叫号、患者状态	护士
医生	查看自己患者、开处方/检查、写病历	医生
药房药师	查看分配给自己的处方、发药、库存	药房
收费员	收费、退款、打印发票	财务
检验技师	查看检验申请、录入结果	检验科
管理员	用户管理、权限、报表	信息科/院长
实习生	仅查看，无操作权限	实习生

每个角色权限明确，不多给不少给。

2. 最小权限原则

– 收费员看不到病历详情（只看到费用）

– 药房看不到检查结果（只看处方）

– 医生只能看到自己的患者（除非会诊共享）

– 实习生只能观察，不能操作

3. 数据隔离

– 科室间数据默认隔离

– 医生A不能查医生B的患者（除非授权）

– 敏感操作（如删除病历）需要二次确认 + 管理员审批

4. 审计追溯

– 所有登录/登出记录

– 关键操作（查看、修改、删除）日志

– 权限变更记录（谁、何时、改了什么）

– 日志保留5年，不可篡改

实施过程2周，分三阶段：

第一周：角色配置与权限分配

– 梳理全院200+账号，映射到15个角色

– 批量导入/导出，3天完成基础配置

– 特殊需求（如体检中心）新建体检医生角色

“比我们预计的快。”马主任说。

第二周：培训与并行

– 管理员培训（马主任和另一位IT）

– 核心角色使用培训（挂号、医生、药房）

– 并行测试：旧系统新系统同时运行1周，对账数据

最担心的是医生抵触。但实际反馈出乎意料：

“现在系统清爽多了，只看到我需要的东西。”一位医生说。

“以前药房能看到所有处方，现在只看到分配给我们的，隐私保护更好。”药师说。

切换后第一个月，马主任每天查看审计日志。

他发现：

– 异常登录尝试：0（账号绑定IP+双因素后，外部无法登录）

– 越权访问：0（角色隔离有效）

– 操作异常：2起（都是新手误操作，无严重后果）

– 权限变更申请：3次（为新员工开通账号，流程合规）

“这才是专业系统该有的样子。”马主任说。

事件的两个月后，卫生局安全检查组来医院抽查。

检查员问：”你们如何防止实习生越权访问？”

马主任详细介绍了RBAC角色体系和审计日志。

检查员随机抽取了10个账号，核查权限配置；又调取日志，查看重大操作记录。

“不错，”检查员说，”权限清晰，审计完备。这是很多三甲医院都做不到的。”

这次检查，医院信息安全和电子病历两项均获优秀评级。

现在，马主任制定了《用户权限管理规定》，作为全院IT安全的核心制度：

1. 新员工入职，根据岗位选择角色，信息科分配账号

2. 员工离职/转岗，24小时内禁用/调整账号

3. 重大操作（删除、批量导出）需双因素+主管审批

4. 每月审查异常日志

5. 每季度权限审计

“以前我们认为’能用就行’，现在明白：权限管理不是IT细节，是医疗安全的基础设施。”

那个实习生事件后，副院长亲自在院务会上讲了一次数据安全。”我们医院的数据，不只是医院的数据，更是患者的信任。谁滥用权限，就是在破坏这种信任。”

马主任用一句话总结软佳RBAC的价值：

“让正确的人，在正确的授权下，做正确的事。”

回想那个下午的紧急电话，马主任深知：如果当时继续用旧系统，权限混乱的问题永远不会解决。软佳不仅提供了技术方案，更提供了一套管理方法。

对于任何医疗机构，无论大小，权限管理不是可选项，是必答题。

声明：本文基于真实客户案例改编，机构名称、人物均为化名，数据为试点统计，实际效果因机构实施质量、人员配合度而异。产品功能截至2026年5月，请以官方最新信息为准。

核心金句：

“权限的混乱，本质是管理的混乱。”

“让正确的人，做正确的事，需要系统的边界。”

“数据安全，从最小权限开始。”

互动话题：

贵院的用户权限管理是否清晰？有没有发生过越权事件？

如果实习生能查看任何医生工作站，您觉得问题出在哪里？

您认为权限管理的核心是技术、制度，还是意识？

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

凌晨三点的电话：一次大规模支付故障的生死排查

2026年5月14日2026年5月17日

早上8点15分，门诊刚开诊十分钟，收费系统突然出现异常。

第一笔报告来自3号窗口，8:17，护士小张在群里发消息：”3号窗口交易超时，病人等了五分钟。”

8:18，5号窗口。

8:19，1号、2号、4号…

8:20，整个A区收费窗口陆续报错：”交易超时”、”支付网关无响应”。

李主任的信息科办公室电话瞬间炸响。他接起第一个电话，是财务科王科长：”半小时内已经有30多笔交易失败，患者堵在收费处，情绪激动。有急救病人等着缴费用药，系统却卡住了！”

这是XX省第一人民医院HIS升级项目第139天，新系统上线后第38天。我们遇到了上线后的第一起大规模故障。

李主任的心沉了一下。他第一时间打给了老林——软佳的资深运维负责人，24小时待命的”救火队长”。

电话接通，李主任简单明了：”门诊A区收费大面积失败，大约30%的交易超时。患者开始聚集，可能要出事。”

老林正在吃早餐，他放下筷子，深吸一口气：”启动一级响应。我半小时到， you 先做三件事：第一，安抚患者，启动手工登记流程；第二，暂时关闭A区第三方支付，全部切换为院内pos机刷卡；第三，保留所有日志，不要重启任何服务。”

“明白。”

1. 第一反应：先保业务，再追根因

老林赶到医院时，信息科的小王和小刘已经在机房待命。三人围在监控大屏前，看着实时交易成功率曲线：A区从98%骤降至70%，而B区正常（98%）。

“为什么只有A区？”老林问。

“不知道，两个区用的同一套系统、同一个支付接口。”小王脸色发白，”我们已经切断了第三方支付，现在全部用手持POS机，失败率降到5%，但还没完全恢复。”

老林点头：”先这么做，确保业务不停。A区手工登记，我们同步排查。”

这是他们的铁律：先保业务，再追根因。患者缴费是刚需，不能让临床因为IT问题停摆。

2. 日志追查：从”随机失败”找规律

业务暂时稳住后，三人开始深挖日志。

老林把过去一小时内所有失败交易的日志导出，用时序排列。很快，模式浮现：

– 时间集中在 08:15-08:30（开诊高峰）

– 失败窗口清一色是A区（1-10号窗口）

– 失败码统一是 PAYMENTGATEWAYTIMEOUT

– 但从网络链路测试看，应用服务器到支付接口网关的延迟仅15ms，远低于阈值

“网关超时但网络延迟低，”小王说，”矛盾。要么是支付接口本身的问题，要么是我们的请求发出去后，得不到响应。”

老林问：”B区正常，B区和A区有什么区别？”

小刘对比配置：数据库相同、应用服务器版本相同、网络设备相同、负载均衡策略相同…唯一的不同是，A区3号窗口昨天做了一次硬件故障切换，更换了新的读卡器。

“读卡器驱动版本？”老林问。

小刘查了：”A区窗口的读卡器驱动是 v3.2，昨天刚升级。B区还是 v3.1。”

但读卡器问题怎么会导致支付网关超时？看起来八竿子打不着。

3. 关键洞察：双写与”幽灵回滚”

这时，财务科王科长跑过来，脸色焦急：”我发现一个严重问题——有病人银行卡已经扣款成功，但我们系统显示失败，导致他们重复支付！”

这句话像一道闪电，劈中了老林。

“双写问题！”老林猛地站起来。

他冲向白板，画起架构图：

患者刷卡 → 读卡器 → POS程序 → HIS应用 →

① 写本地交易表（门诊收费库）

② 调用第三方支付接口（银联）

如果第②步调用失败（超时或异常），但第①步已经提交，本地数据会显示”已支付”，实际银行没扣款或扣款成功但通知丢失，就会产生不一致。

但为什么以前没出现，偏偏今天大规模爆发？

“以前失败率低，可能低于5%，业务影响小，没被发现。”老林喃喃，”今天突然30%失败，是因为A区新驱动有bug吗？”

但B区驱动旧，为什么正常？那是否意味着，A区的新驱动触发了某种边缘场景，导致调用支付接口时的数据包异常，进而引发超时？

4. 交叉验证：驱动与超时的关联

老林决定做一次AB测试：把A区一个窗口的驱动降级回v3.1，观察故障率变化。

小王操作：10号窗口，临时降级驱动。同时保留其他窗口为新驱动。

十分钟后，数据出来了：

– A区其他窗口（新驱动）：失败率 28%

– 10号窗口（旧驱动）：失败率 4%

差距显著！

“驱动版本是原因。”老林有了结论。但如何解释？读卡器驱动怎么会影响支付接口？

小王调取内核日志，发现一个细节：

新驱动在读卡时，会调用一个系统API（timeBeginPeriod）来高精度计时，但该API在同一进程里被多次调用，导致系统级定时器精度异常。而HIS应用中负责调用支付接口的线程池，使用了相同的计时器来设置socket超时。

结果：在新驱动影响下，socket超时被意外缩短了80%——原设定30秒，实际只等了6秒就抛出超时，而支付接口正常响应需要8-10秒（高峰期）。

所以，B区正常（旧驱动不做手脚），A区全部中招（新驱动污染了全局定时器）。

5. 根因修复与预防机制

定位到根因，修复相对容易：

1. 紧急措施：A区所有窗口降级回v3.1驱动（半小时内完成）。

2. 长期方案：升级读卡器驱动到v3.3（厂商已修复该bug），并在应用层将socket超时长至45秒，同时增加重试机制（一次失败后自动重试一次，使用独立线程避免阻塞）。

系统逐渐恢复：A区失败率从28%下降到2%以下。

但老林知道，这次故障暴露的不仅仅是驱动bug，更是系统脆弱性：

– 为什么一个局部的硬件驱动变更，能影响核心业务流程？因为架构耦合太紧，没有隔离。

– 为什么双写不一致会导致重复支付？因为补偿机制缺失。

– 为什么故障发生30分钟后才定位到驱动问题？因为监控告警不够精细，没有”跨层关联”。

于是，他们制定了三条改进措施：

1. 引入”变更隔离”：硬件驱动升级必须先在测试环境验证其对业务链路的影响，特别是对网络、定时器、内存等共享资源的影响。

2. 双写一致性补偿：支付流程增加”对账job”，每5分钟扫描”本地已支付但银行未确认”的交易，自动发起查询/冲正。

3. 全链路监控升级：从读卡器→应用→支付接口，打上统一traceID，任何节点异常可快速回溯上下游。

6. 故障复盘会：从”救人”到”防病”

三天后，医院信息科和软佳开了故障复盘会。

老林开场：”这次故障，影响患者约200人次，重复支付5笔，客服电话被打爆。损失不小。但我们也要看到积极面：第一，响应快，半小时控制住；第二，定位准，没走弯路；第三，修复稳，没引发次生问题。”

李主任点头：”但我不想有下次。”

“所以我们改了三个机制。后续再有类似边缘场景故障，我们会更快发现、更快隔离。”

会议最后，老林说了句话：

> “故障排查的最高境界，不是’终于搞定了’，而是’同样的故障绝不会再发生第二次’——排查的终极产物不是修复，是预防机制。”

这句话后来成了信息科的座右铭。

7. 给所有技术负责人的建议：不要等出事才后悔

老周在后续的运维培训中，分享了这次事故的四个教训：

1. 故障是”礼物”，虽然包装不好看

每次故障都暴露一个或多个弱点。如果掩盖问题，下次会在更糟的时刻爆发。

2. “隔离”比”修复”更重要

故障发生后，第一要务是把影响范围圈住，防止扩散。A区出问题，快速切B区，这是隔离思维。

3. 日志要”可关联”，而非”孤岛”

如果应用日志、系统日志、网络日志、支付接口日志各管各，很难拼出全貌。必须打通traceID，实现全链路可追踪。

4. 双写必须有补偿

分布式环境下，数据一致性靠”最终一致”，不是”强一致”。必须有定时对账和自动补偿，避免人为发现太晚。

5. 不要忽视”看似无关”的变量

读卡器驱动和支付超时，八竿子打不着。但正是这种”边缘关联”，最容易被忽略。排查时要大胆假设，小心验证。

8. 患者的理解：一次危机中的温情

值得一提的是，在故障期间，收费科立即启动手工登记，并安排专人在窗口解释：”系统临时故障，需要手工处理，可能会慢一点，请谅解。”同时发放手写凭证，注明”此交易待系统确认，勿重复支付”。

一名患者家属在等待两小时后，没有抱怨，反而说：”我看到你们一直在忙，每个人都在想办法。我们理解，系统也不可能百分百不出问题。”

这句话让李主任很感动。后来他们给这位家属留了联系方式，邀请他参加医院的信息化体验座谈会。

有时候，真诚的服务态度，比技术的完美更能赢得客户理解。

互动话题

你经历过最严重的一次系统故障是什么？最终是怎么定位并解决的？有什么教训可以分享？

> 基于真实医院场景改编，人物均为化名

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

招标现场暗流涌动，结局反转：一次价值导向的销售胜利

2026年4月25日2026年4月25日

四月初，XX省第一人民医院HIS系统升级项目正式招标。

消息一传出，省内五家主流HIS厂商都闻风而动。赵某代表的华通公司来得最早，几乎每两天就来一次，每次不是带点心就是带水果，说是”联络感情”。他还带来了一份看似精美的标书，厚厚一百页，彩印，装帧考究，看起来很高端。

招标会当天，省一院小会议室里坐满了人。除了院方七人评标小组，还有卫健委派来的监督员，以及五家厂商的代表。会议室里弥漫着一种紧张的气氛——这笔680万的大单，省里最大的医院信息化项目，谁都想啃一口。

1. 赵某的表演：华丽外表下的空洞

赵某第一个上台演示。

他西装革履，PPT做得花团锦簇，动画效果炫酷，图表精美。开口闭口都是”行业领先””最佳实践””全国标杆”。台下有些人听得连连点头，特别是财务科王科长，他看着PPT上那些”节省成本30%””效率提升200%”的数据，眼睛都亮了。

但杨院长始终面无表情。她在笔记本上记了几个问题，但一直没有问。

轮到昆明软佳的项目经理小张上台时，所有人以为会是一场碾压的对比——华通的PPT那么花哨，小张的PPT朴素得几乎可以说是简陋，黑白配，没有动画，连公司logo都只有一行小字。

但小张的第一句话就扭转了局面。

他没有急着展示自己的产品，而是问了三个问题：

“各位领导，你们现在最头疼的是什么？是门诊排队太长？是住院管理混乱？还是数据报不上去？”

这个问题一问，现场气氛立刻变了。原先昏昏欲睡的科室主任们，开始交头接耳。

“我们外科最头疼的是手术排程。”外科赵主任说，”经常两个手术撞车，一个医生同时被安排在两台手术上。”

“我们护士站操作太复杂。”护理部陈护士长说，”新护士要培训三个月才会用。”

“我们药房发药慢。”药剂科冯主任说，”患者等太久了投诉很多。”

小张把这些都记下来，然后说：”我们的系统没有很多花哨的功能，但我们解决了这些问题。”

他切到下一页PPT，展示了三张截图：

第一张是手术排程界面的优化——自动冲突检测，一键调整。

第二张是护士站的新手引导——三步完成医嘱确认。

第三张是药房发药的预配功能——挂号时处方就传到药房，患者人还没到，药已经准备好了。

“这些不是我们吹的，”小张说，”都是我们在其他医院实际解决过的问题。我这里有十二个案例，都是和贵院情况类似的医院，你们可以问问他们，我们的系统用得怎么样。”

他把联系方式和案例名称放在大屏幕上。

“我们不会给大家展示花哨的PPT，我们只会解决真实的问题。”

2. 价值呈现：从”第一年成本”到”五年总拥有成本”

杨院长开始认真听。但王科长还在纠结价格：”你们比华通贵60万，凭什么？”

小张没有直接回答，而是在白板上画了一个表格：

| 维度 | 软佳（580万） | 华通（520万） |

|——|————–|————–|

| 合同价（第一年） | 580万 | 520万 |

| 三年运维费 | 包含在合同内 | 280万（每年18%）|

| 培训费 | 两次免费培训 | 额外收费（估算60万）|

| 数据迁移 | 免费 | 收费（估算30万）|

| 五年总拥有成本（估计） | 580万 | 890万 |

“520万只是第一年的价格。”小张说，”从第三年开始，他们每年收18%的维护费，三年就是280万。我们的580万包含四年免费运维。”

王科长计算器按得飞快：”你们四年免费运维值多少钱？”

“按市场价，一年运维费是合同额的15%-20%，四年就是300-400万。”小张说，”但我们不单独卖运维，我们卖的是’系统五年无忧运行’的保证。”

杨院长沉默了。她在算账，但更算的是风险。

小张继续：”华通的系统，我们调查过，他们服务的医院平均每两年要有一次较大规模的升级改造，每次升级费用是初始合同的30%-50%。我们的系统设计生命周期是七年，期间只需常规维护。”

“而且，”他调出一份客户名单，”这上面有23家医院，最老的一家是2012年上线的，到现在还在用，每年只做常规升级，没有大修过。平均使用年限5.2年。”

3. 看不见的成本：系统不稳定的代价

“但价格高就是价格高，”刘主任说，”我们要向财政申请，很难批。”

小张知道，单纯讲价值还不够。他需要让客户感受到不选择的代价。

他画了一个流程图：

“`
系统出问题 → 护士操作受阻 → 患者排队时间延长 → 投诉增加
↓
医生效率下降 → 门诊量减少 → 医院收入下降
↓
信息科加班救火 → 人力成本上升 → 员工满意度下降
“`

“这些成本，不会出现在报价单上，但都是医院在承担。”小张说。

他举了个例子：

“假设系统每天出一次小故障（卡顿5分钟），影响200个患者，每人多等3分钟，就是600分钟=10小时的等待。按三甲医院门诊量，这10小时相当于多少就诊量？大概50个号。50个号，平均收费200元，就是1万元。一年365天，就是365万。”

王科长倒吸一口凉气：”这么算…”

“这只是显性成本。”小张继续，”隐性成本更大：患者满意度下降，医院声誉受损，卫健委考核受影响…”

“但你们怎么能保证不出问题？”刘主任问。

“我们不保证不出问题，”小张说，”我们保证问题发生后，4小时内解决，并且不重复发生。”他调出了SLA（服务等级协议）对比：

– 软佳：99.9%可用率，一年最多宕机8.76小时；4小时响应，12小时解决

– 华通：98%可用率，一年最多宕机175小时；24小时响应，48小时解决

“你怎么知道他们的SLA是98%？”杨院长问。

“我有个朋友在华通做售后，他告诉我的。”小张笑，”更重要的是，我可以带您去他们服务的医院问问，一年要报多少次警。”

4. 价格锚定：先高后低的博弈技巧

小张知道，纯粹的”讲价值”还不够。价格谈判，本质是心理战。

他抛出了一个”锚点”：

“其实，我们原来的标准报价是680万。”小张说。

会议室里一片哗然。

“什么？”杨院长吃了一惊。

“但考虑到与贵院的初次合作，我们给了优惠，降到580万。这个价格，在我们服务过的医院里，是最低的。”小张平静地说。

680万是他们 mock 的”天价锚点”。先抛出一个高得离谱的数字，再降到一个看似合理的价格，让客户觉得”占了便宜”。

杨院长笑了：”周总，你这就不厚道了。680万我们想都不敢想。”

“但事实是，我们的服务值这个价。”小张认真地说，”我们不是在卖软件，是在卖’七年无忧运行’的保证。您算一下，580万摊到七年，一年不到83万，一天不到2300元。贵院一年的IT预算多少？占比多少？”

杨院长没接话。她在思考。

小张趁热打铁：”我们软件的生命周期是七年。这七年里，我们提供：

– 四次大版本升级

– 全年7×24小时响应

– 每年两次性能优化

– 免费硬件诊断（如果客户自己买硬件）

– 数据迁移服务（每次升级）

– 安全加固服务

这些，华通都要额外收费。”

5. 价值的拆解：让看不见的变得看得见

小张决定，把”价值”拆开，一项一项跟客户算。

他拿出准备好的”价值清单”：

① 实施服务（价值80万）

– 项目经理常驻2个月

– 8人实施团队

– 数据迁移（含清洗）

– 用户培训（全员，分批次）

– 上线支持（24小时待命一周）

② 运维服务（价值120万/年，四年共480万）

– 7×24小时响应（电话+远程+上门）

– 每月健康巡检

– 每季度性能优化

– 每年一次架构评审

– 应急演练（每年两次）

③ 技术升级（价值150万）

– 四年内所有小版本升级免费

– 两次大版本升级（如V4.0→V5.0）免费

– 新功能模块优先试用权

④ 风险保障（价值无法估量）

– 数据安全（加密传输+加密存储）

– 灾备方案（主备切换演练支持）

– 合规保障（等保测评支持）

– 纠纷调解（如果系统有问题，我们承担责任）

“这些加起来，远超580万。”小张说，”但我们的定价不是’成本加利润’，而是’客户价值’。我们只取其中一部分。”

刘主任问：”那华通为什么不这么算？”

“因为他们卖的是产品，我们卖的是服务。”小张说，”产品有价，服务无价。”

6. 信息科的信任是关键

这时，信息科李主任开口了。

“杨院长，王科长，”他说，”价格不是关键。”

所有人的目光转向他。

李主任说：”我们医院最怕的不是花几百上千万，是怕系统出问题。去年我们有一次数据同步故障，导致住院费用对不上，全院财务加班三天，最后人工核对，花了两个星期。”

他停顿了一下。

“那次事故的直接成本——加班费、误工费——就有三十万。间接成本，比如病人投诉、领导问责，没法算。”

“我们选软佳，一个原因就是他们经历过’真停电’的灾备演练——别人的系统在演示，他们的系统真的用过。这意味着，他们是在用生命做保障。”

李主任看了小张一眼：”软佳报价高，但他们服务过的医院，故障率很低。华通报价低，但他们服务过的医院，每年都有故障报道。”

“多花这六十万，买个’安心’，值。”

杨院长看着李主任，点了点头。

李主任是信息科负责人，他的意见，比谁都重要。

7. 最后的博弈：我们不降价，但我们多送东西

小张知道，客户需要一个”赢”的感觉。

如果什么都不让步，哪怕理由再充分，客户也会觉得”被压服了”。

所以小张说：”这样，价格我们不能再降。但我们可以多送一些服务。”

“什么服务？”

“我们可以：

1. 延长免费运维期，从三年延长到四年（多送一年）

2. 增加一次全员培训（变成三次）

3. 上线后第一个月，派两名工程师常驻医院，随时解决问题

4. 免费为贵院做一次网络优化，确保HIS系统的网络环境没问题

5. 提供一套灾备方案设计（含演练支持）

这些服务，单独买的话，至少50万。”

杨院长和李主任交换了一下眼神。

“这些能写进合同吗？”杨院长问。

“可以，作为补充协议。”

刘主任问：”那总价…”

“还是580万，但我们多送50万的服务。”小张微笑，”相当于变相降价8.6%。”

王科长低头算账：580万 vs 520万，差价60万。软佳送50万服务，实际成本530万，还是比华通贵10万，但多了一年运维和常驻工程师。

“常驻工程师一个月，值多少钱？”王科长问。

“市场价，一个月5万。我们送。”

杨院长笑了：”周总，你这是’买一送一’啊。”

“我们希望贵院用我们的系统，十年都不出事。所以前期投入大一点是值得的。”

8. 合同条款的细节战争

除了价格，合同里还有一堆条款在博弈。

① 违约金条款

医院的草案：”如果系统上线延期，每延期一天，支付合同金额的3%作为违约金，上限为合同总额的50%。”

小张看到时，差点把水喷出来——580万的3%，一天17.4万，十天就174万，远超合同利润。

小张提出”对等责任条款”：

– 双方任何一方违约导致延期，都应向对方支付违约金

– 违约金的计算方式，基于造成的实际损失（而不是固定比例）

– 如果延期由双方共同原因造成，按责任比例分摊

刘主任不同意：”合同白纸黑字，按时上线是你们的义务。”

小张反问：”如果延期是因为贵院的原因呢？比如，你们提供的测试环境不稳定，导致我们无法测试；或者你们需求变更频繁，导致我们返工；或者贵院网络不通，我们集成不了…”

刘主任语塞。

最后折中：

– 仅针对”技术验收延期”（UAT通过后倒推）

– 违约金=延期天数×合同金额×0.3%（原0.5%）

– 上限=合同总额的10%（原50%）

– 如果延期是医院方原因导致，医院方需补偿我方额外成本（按实际工时）

② 阶梯式验收

小张提出”分阶段验收”：

– 技术验收：UAT通过，功能符合需求 → 付90%合同款

– 业务验收：正式上线后7天内，核心业务零重大故障 → 付5%

– 稳定运行验收：上线后30天，系统可用率>99.9% → 付最后5%

如果前两步失败，责任在软佳，整改不额外收费；如果最后一步失败，软佳继续整改，但不触发违约金。

刘主任开始不同意，觉得”分期付款”是软佳不自信。

小张解释：”不是我们不自信，是我们要对齐’成功标准’。如果UAT通过就算成功，那业务上出问题算谁的？分阶段，是对双方的保护。”

杨院长点头：”有道理。”

③ “重大故障”的定义

刘主任加了一个条件：”如果上线后一个月内，出现三次以上’业务中断’（比如门诊挂号失灵、住院无法入出转），除整改外，每发生一次，扣减尾款1%。”

小张问：”什么叫’业务中断’？”

“挂号系统不能用，收费系统不能用，就是业务中断。”

“那如果只是某个功能慢一点，但没有完全不能用，算吗？”

“不算。”

“如果某个科室因为网络问题，不能用，但其他科室能用，算吗？”

“要看影响范围。影响全院，算；影响单个科室，不算。”

小张把它写进条款：

> “业务中断”定义为：影响超过50%用户的系统功能不可用，持续时间超过15分钟。

“这样明确，双方都有数。”

④ 需求变更流程

刘主任最后提了一个要求：”合同里要写清楚，如果需求变更，你们必须配合，不得推诿。”

小张笑了：”刘主任，任何变更，都是有成本的。我们可以配合，但需要有个流程：变更申请→评估影响（工期、成本）→书面签字确认→执行。”

“那是不是我们每次提变更，你们都要加钱？”

“不一定。如果变更很小，不影响工期和成本，可以免费。但如果变更大，增加了工作量，我们需要相应调整合同金额和工期。”

刘主任不同意：”合同价格不能变。”

小张：”那我们就严格按需求来。如果需求之外的变更，我们不做，或者另签补充协议。”

这是底线。

刘主任想了想：”可以，但变更评估要公正，不能你们说多少就多少。”

小张：”评估我们可以一起做，用你的需求文档和我们的工时表。”

9. 签约：价值的胜利

最终结果是：XX医院选择了昆明软佳，580万，额外赠送一年运维和常驻工程师一个月，以及网络优化、灾备方案。

签约那天，华通的赵总也来了，看小张的眼神有点复杂。

签约仪式后，杨院长请所有人喝茶。

她举起茶杯：”今天这个签约，不是价格的胜利，是价值的胜利。我希望，将来回顾这次选择时，我们能说——钱花得值。”

小张举杯：”我保证。”

赵总坐在角落，一言不发，喝完茶就走了。

10. 三个月后：验证的价值

签约后三个月，老周接到李主任电话。

“华通在YY医院的系统，最近频繁出故障，病人都堵在收费处。他们估计要二次招标了。”

老周没说话。

李主任说：”当初选择你们，真的很值。”

老周说：”这不是我们的胜利，是’价值思维’的胜利。”

互动话题

你经历过最成功的一次价格谈判是什么样的？关键是什么？你认为在面对低价竞争时，应该如何向客户传递价值？欢迎在评论区分享你的销售经验和心得。

> 基于真实医院场景改编，人物均为化名

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

当监控系统成了”摆设”：一次性能瓶颈的深度追踪

2026年4月24日2026年4月24日

凌晨两点告警响起，这不是电话，而是整个技术团队被拉起的紧急呼叫。

XX省第一人民医院的门诊系统在晚高峰时段出现了严重卡顿，部分科室甚至无法登录。值班工程师小李第一时间检查了监控系统——所有指标正常：服务器CPU使用率40%（远低于警戒线），内存充足，网络流量平稳，数据库响应时间在可接受范围。

但患者的投诉电话持续不断：”系统卡死了！””挂号要五分钟！””收费窗口动不了了！”

小李感到困惑：监控显示一切正常，为什么用户体验如此糟糕？

1. 传统监控指标的致命盲区

李主任凌晨三点赶到数据中心。他首先查看了监控仪表板：CPU平均负载2.5（8核），内存使用率55%，网络带宽利用率30%，数据库连接池使用率60%——所有指标都在安全范围内。

但业务层的监控显示：挂号API平均响应时间从200毫秒上升到8秒，错误率从0.1%上升到15%。

“这怎么可能？”小李说，”应用服务器CPU才40%，数据库查询时间也正常，为什么响应会这么慢？”

李主任问：”你监控的是哪个层面的响应时间？”

“是应用服务器到网关的响应时间。”

“那数据库呢？前端呢？网络链路呢？”

小李摇了摇头——他们只监控了应用服务器的响应时间，没有监控端到端的完整链路。

这是一个典型的监控盲区问题。传统的监控体系过于关注基础设施层（服务器、网络、数据库），而忽略了业务链路层的真实用户体验。

老林建议立即进行链路追踪。他们在关键业务路径上插入了一些探针，很快发现：从用户点击”挂号”到页面返回，大部分时间（约7秒）消耗在数据库查询上，而不是应用处理。

但数据库监控显示查询响应时间只有50毫秒。矛盾在哪？

进一步深挖，他们发现了一个细节：数据库的”平均查询时间”是50毫秒，但这个平均值掩盖了长尾问题——90%的查询确实很快（10-20毫秒），但10%的查询因为锁等待或缓存失效，需要2-3秒甚至更长。平均值被大量的快速查询拉低了，但那些慢查询正好发生在门诊高峰期，直接影响用户体验。

这就是为什么”所有指标正常”但用户感觉”卡”——因为平均值掩盖了长尾延迟。

2. 缓存失效风暴：看不见的雪崩

小吴通过慢查询日志，锁定了几个最慢的查询。它们都涉及同一个表：DOCTOR_SCHEDULE（医生排班表）。这个表每天凌晨会被批量更新一次，之后正常增删改。

但为什么这个表的查询会突然变慢？

他们查看了数据库的缓存状态：InnoDBbufferpoolpagesdirty（脏页数）高达80%，而InnoDBbufferpoolpagesfree（空闲页）只有5%。这意味着缓冲池几乎被占满，新数据无法加载，必须进行大量磁盘I/O。

“是谁占用了这么多缓冲池？”李主任问。

他们启用了performanceschema，查看当前正在执行的热点查询。发现有一个后台任务：DailyReportJob，在早上九点二十分开始执行，它需要扫描DOCTORSCHEDULE全表（300万行）来计算统计指标。这个任务没有设限流，也没有错峰执行，直接冲击生产数据库。

更糟糕的是，这个任务的执行时间长达25分钟。在这25分钟内，业务查询不得不等待I/O资源，导致响应时间飙升。

“这个报表任务为什么在门诊高峰期跑？”李主任质问。

外包团队的回复是：”我们试过在晚上跑，但晚上数据量太大，要跑两个小时。所以改到白天，利用系统空闲期。”

但他们误解了”空闲”——门诊高峰期恰恰是系统最忙的时候，根本不是空闲期。

3. 从单点故障到系统思维

这次故障的修复相对简单：停止报表任务，系统响应迅速恢复正常。但李主任知道，这只是治标。

他们做了几件事：

1. 给报表任务加上了资源限制：CPU配额、内存限制、I/O优先级

2. 将报表任务的执行时间改到凌晨四点到六点，避开业务高峰

3. 优化报表SQL，增加了索引，将执行时间从25分钟降到3分钟

4. 购买并部署了APM（应用性能监控）工具，可以对每个请求进行全链路追踪

但更深层的反思在复盘会上。

老林说：”我们以前的监控思路是’看服务器’，现在是’看业务’。服务器指标只是手段，业务指标才是目的。以后我们的监控仪表板，首先要展示的是：挂号成功率、平均等待时间、门诊吞吐量、患者满意度（通过反馈系统）。如果这些业务指标正常，服务器指标哪怕有点波动也问题不大；但如果业务指标异常，服务器指标再’漂亮’也没用。”

小李问：”那为什么以前没意识到这点？”

李主任回答：”因为我们被’技术指标’绑架了。我们觉得CPU<80%、内存<85%就是健康。但实际上，用户体验是另一回事。一个慢查询可能CPU占用很低，但会让用户等得抓狂。"

“所以我们需要建立业务感知监控——不只是监控系统’活着没’，更要监控系统’好不好用’。”

4. 构建业务感知监控体系

接下来的三个月，团队构建了一套新的监控体系：

第一层：用户体验监控

– 部署前端真实用户监控（RUM），自动采集页面加载时间、API响应时间、错误率

– 关键业务路径设置SLA告警：挂号API P95响应时间>3秒告警，错误率>1%告警

第二层：应用链路追踪

– 使用OpenTelemetry标准，在每个微服务中植入探针

– 可以trace一个挂号请求的全链路：网关→挂号服务→医生排班服务→数据库→返回

– 快速定位瓶颈在哪个环节

第三层：资源质量监控

– 不只监控”连接池使用率”，还监控”活跃连接率”、”空闲连接率”、”等待获取连接的线程数”

– 不只监控”CPU使用率”，还监控”运行队列长度”、”上下文切换频率”

– 引入”资源争用指数”：多个业务竞争同一资源时，指数的变化趋势

第四层：业务指标监控

– 每小时门诊挂号量、退号率、平均候诊时间

– 每病区住院病人数、出院结算平均时长

– 药房发药量、处方审核通过率

– 这些业务指标与系统指标关联分析，发现隐性关联

5. 从”救火”到”防火”

新监控体系上线后，团队发现了多个之前忽略的隐患：

隐患一： 每天上午10:30-11:00，挂号响应时间会周期性上升。原来是某个后台任务StatisticsCollector在整点运行，它需要聚合前一天的统计数据。虽然它只跑5分钟，但在这5分钟内会锁住一些核心表。

解决方法：将统计任务拆分，部分移到夜间，部分改为增量计算，减少单次执行时间。

隐患二： 每月1号的住院结算特别慢。原因是财务科会在1号凌晨批量处理上月住院结算，这个任务会访问大量历史数据。虽然它在凌晨2点运行，但因为数据量太大，仍然会对白天产生余波（缓冲池污染）。

解决方法：将历史数据移到只读副本，结算任务走副本查询，不冲击生产库。

隐患三： 药房发药系统在午高峰（12:00-13:00）经常出现”短暂卡顿”。原因是药房医生会在这个时段集中提交处方，而处方审核服务需要调用外部医保接口进行合规性检查。医保接口响应慢（平均1.5秒）时，大量线程会阻塞等待。

解决方法：引入异步审核和本地缓存，将医保接口响应时间从关键路径中剥离。

6. 运维思维的转变

李主任在年度总结会上，分享了他对”现代运维”的理解：

“运维不再是’保证服务器不宕机’，而是’保证业务连续性’。服务器宕机只是最极端的情况，更多时候的问题是’业务慢’、’业务错’、’业务不稳定’。这些问题的根源可能不在服务器，而在于应用设计、数据模型、资源争用、外部依赖。”

“所以运维人员不能只懂服务器，要懂业务；不能只看指标，要看指标背后的用户感受。”

软佳的总监听后说：”你们现在的监控体系，已经接近我们给顶级三甲医院做的方案了。但我要补充一点：监控的终极目标不是发现更多问题，而是减少问题发生的频率和影响。也就是说，监控要能预警，预警之后能自动处置，自动处置不了才人工介入。”

“我们正在推一个’智能运维’平台，它能基于历史数据预测容量瓶颈，提前触发扩容；能识别异常模式，自动创建工单；甚至在检测到某些已知故障模式时，自动执行修复脚本。”

李主任问：”那运维人员岂不是要失业了？”

总监笑：”恰恰相反，运维人员要从’重复救火’中解放出来，去做更有价值的事——容量规划、架构优化、业务连续性设计。机器适合处理明确的规则，人适合处理模糊的决策。”

半年后，XX医院的HIS系统实现了连续200天无P1故障。李主任在科室内部的墙上写了两句话：

第一句： “指标正常 ≠ 系统健康”

第二句： “业务感知，才是运维的最终标尺”

互动话题

你们医院的监控体系能发现”业务异常”吗？还是只能看服务器指标？你有什么从”监控正常”到”业务异常”的排查经历？欢迎分享你们的监控实践。

> 基于真实医院场景改编，人物均为化名

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

“幽灵”进程的幽灵：一场由”沉默杀手”引发的系统危机

2026年4月23日2026年4月23日

上午十点半，门诊高峰时段。

XX省第一人民医院的门诊系统开始”莫名其妙”地变慢——不是全瘫，而是”一点点往下沉”：刚开始挂号响应从2秒变成5秒，人们还能接受；半小时后变成15秒，开始有患者抱怨；一小时后变成30秒以上，缴费窗口前排起了长队，护士们在喊”系统太卡了”。

李主任在看监控：CPU使用了45%，内存还有60%可用，网络流量正常，数据库连接池使用率55%——所有指标都在安全范围内。但系统就是越用越慢，像是一辆在平路上慢慢失去动力的车。

1. 指标正常，但业务异常：最诡异的故障

“重启试试？”有人提议。

“不行，”李主任摇头，”现在是高峰，重启会导致所有正在办理的业务中断，患者会更不满。先查原因。”

这个决定很关键。如果当时选择了重启，问题可能暂时消失，但那个”幽灵”会继续存在，下次以更猛烈的方式爆发。

老林建议从进程层面入手。他们用top命令查看系统进程，发现了一个奇怪的进程：java -jar /opt/his/tmp/cleanup.jar，这个进程的CPU占用率只有0.3%，但VIRT（虚拟内存）高达2GB，RES（物理内存）也有800MB，而且已经运行了超过48小时。

“这个进程是干什么的？”李主任问。

小张回忆起来：这是两周前部署的一个”临时清理脚本”，用于清理临时文件。当时 supposed 是运行一次就退出，但似乎它变成了常驻进程。

他们进一步检查这个进程的打开文件：lsof -p ，发现它打开了一个数据库连接，而且这个连接的状态是”Sleep”，但时间已经超过48小时。

“就是这个’ninja’进程，”老林说，”它占着一个数据库连接不放，而且因为它持续存在，连接池的其他连接被它慢慢挤占。”

但仅仅这一个连接，不至于把连接池全部占满。小吴继续排查，又发现了多个类似的”僵尸进程”：有的已经死亡但父进程没回收（orphaned zombie），有的自己创建了大量线程但从未释放，有的在等待某个永远不来的网络响应（I/O wait）。

2. 清理僵尸：一场高风险的手术

“我们必须清理这些僵尸进程，”李主任说，”但不能影响正在进行的业务。”

他们制定了一个计划：

1. 识别所有空闲超过30分钟的数据库连接

2. 找出这些连接关联的进程

3. 对于确认是僵尸的进程，先尝试优雅终止（SIGTERM），如果10秒内不退出，再强制终止（SIGKILL）

4. 清理后密切观察业务日志，确保没有数据丢失或不一致

第一步，他们用SQL查询了数据库的进程列表：

“`sql
SELECT id, user, host, db, command, time, state
FROM information_schema.processlist
WHERE time > 1800 AND command != ‘Sleep’ OR state = ‘Sleep’ AND time > 1800;
“`

（注：此处为示意逻辑，实际更复杂）

结果发现了80多个超时会话。他们逐一对每个会话对应的应用服务器进程进行标记。

小吴编写了一个自动化脚本：

1. 获取所有空闲超过30分钟的数据库连接ID

2. 通过连接信息反查应用服务器上的进程ID

3. 对进程进行优雅终止，等待10秒

4. 如果进程仍在，强制终止

5. 记录清理日志

脚本运行前，李主任要求：”每清理5个连接，就检查一次业务日志，确保没有异常。”

清理开始。前5个连接顺利清理，无异常。10个、15个、20个… 系统响应时间慢慢改善，从30秒降到了18秒。

但清理到第35个时，系统再次出现短暂闪退——所有页面白屏约15秒。

“停！”李主任喊道。

他们检查发现，这个连接关联的是一个正在执行批量数据同步的任务。虽然这个任务已经”空闲”了35分钟，但它处于一个事务中，一旦强制终止，会导致数据同步中断，部分数据不一致。

“我们不能只看’空闲时间’，”老林说，”还要看当前事务状态。”

他们调整了清理策略：只清理那些”不在活动事务中”的空闲连接。

调整后，清理继续。这次顺利多了。下午一点，清理完成，系统响应时间稳定在4秒以内。但李主任心里明白，这只是临时解决了资源占用问题，那个”幽灵”的制造者——那些不该存在的僵尸进程——是怎么来的，才是根本。

3. 为什么会有僵尸进程？

下午业务低峰期，技术团队开始了根因分析。

第一个发现：应用程序异常处理不当

他们检查了那个cleanup.jar的源码（ decompiled ），发现它在捕获到InterruptedException后，只是简单return，没有真正关闭数据库连接和线程资源。这个jar包是由一个外包团队写的，上线时没有做代码评审。

第二个发现：线程池配置不合理

应用服务器的线程池配置是默认值：核心线程数10，最大线程数200，队列容量1000。在门诊高峰，请求并发达到1500时，线程池会创建大量线程来处理，但这些线程在任务完成后不会立即销毁（核心线程不销毁），导致线程数慢慢积累到200的上限。而这些线程如果因为某种原因阻塞，就会变成”僵尸线程”。

第三个发现：数据库连接泄漏

某些业务代码中，数据库连接获取后，在异常分支里没有正确释放。正常情况下，连接会随着方法结束自动关闭（try-with-resources），但一旦发生异常跳过close语句，连接就”悬空”了。

第四个发现：监控盲区

“我们一直以为连接池使用率55%是安全的，”李主任看着监控图表，”但55%指的是’已分配连接’，不包括’僵尸连接’。如果僵尸连接占用了30%，实际可用连接只有25%，早就该告警了。”

老林补充：”我们的监控只采集了’连接池使用率’这个指标，没有采集’活跃连接率’和’空闲超时连接率’。这就是为什么所有指标正常，但业务已经卡住。”

4. 系统性整改：从被动灭火到主动预防

当晚，李主任主持了故障复盘会。他定了三个整改方向：

第一，建立连接泄漏检测机制

在数据库层面，开启performance_schema，监控长时间未关闭的连接。对于超过30分钟的空闲连接，自动记录堆栈信息并告警。这样，即使发生泄漏，也能在影响业务前发现。

同时，应用层面增加连接池的abandoned回收机制：如果一个连接被借出超过10分钟未归还，强制回收并记录日志。虽然强制回收可能导致该连接的业务失败，但比整个系统拖垮要好。

第二，规范进程生命周期管理

所有后台任务进程必须有明确的启动、停止、监控机制。现在，他们要求：

– 任何后台任务必须打包为systemd service，有明确的ExecStart、ExecStop、Restart策略

– service文件必须包含TimeoutStopSec=30，防止进程拒绝退出

– 所有服务必须提供健康检查接口，供监控系统探测

– 禁止使用”nohup java -jar”这种原始方式启动服务

那个运行了48小时的cleanup.jar，就是因为没有systemd管理，一旦启动就不知道如何停止，只能手动kill。

第三，优化线程池配置和监控

根据业务高峰的并发量（约1500），他们将线程池参数调整为：

– corePoolSize=50（避免线程数过少导致排队）

– maxPoolSize=300（允许弹性扩容）

– queueCapacity=1000（缓冲队列）

– keepAliveTime=60（空闲线程60秒后销毁）

同时，增加线程池监控指标：

– 活跃线程数

– 队列等待数

– 任务完成总数

– 拒绝任务数

这些指标接入现有监控系统，设置阈值告警。

第四，强化代码审查和异常处理规范

所有生产环境部署的代码，必须经过至少一人代码审查，重点审查：

– 资源释放（数据库连接、文件句柄、线程）是否在所有异常路径都能正确关闭

– 是否使用了try-with-resources或类似机制

– 线程池任务是否有超时设置

– 是否有无限循环风险

此外，统一异常处理规范：捕获异常后，必须记录日志（包括堆栈），必须确保资源释放，必须考虑是否需要向上传递。

5. 一个月后：系统稳定运行

整改后的一周内，他们又发现了两起潜在的连接泄漏——都被自动检测机制捕获并及时处理。一个月后，系统没有出现类似的”缓慢失能”故障。

李主任在月度运维会议上说：”这次故障给我们上了一课。它告诉我们，指标正常不代表系统健康。我们需要监控的不仅仅是CPU、内存这些’传统指标’，更要监控’业务健康度’——比如平均响应时间、错误率、吞吐量。”

他还提出了一个概念：”运维的黄金法则是’在用户感知之前发现问题’。当患者开始抱怨’系统卡’时，其实问题已经存在一段时间了。我们的目标是通过精细监控，让系统在用户感知到异常之前，就自动修复或至少自动告警。”

软佳的客户成功经理在回访时，对这次整改给予了高度评价。她说：”我们服务过上百家医院，XX医院这次故障的复盘深度和整改力度，是前三的水平。很多医院故障后只修bug，不建流程，结果同类问题反复发生。”

6. 给运维人员的建议

老林在内部培训中，总结了”僵尸进程防御三原则”：

原则一：资源必须有归属

每个数据库连接、每个线程、每个文件句柄，都必须有明确的创建者、所有者、销毁时机。不能让它”自然死亡”，必须”主动回收”。

原则二：监控要看趋势，看质量

不要只看”总量是否超过阈值”，要看”活跃占比”、”空闲时长分布”、”异常增长趋势”。一个指标从20%升到45%，虽然没到80%的告警线，但趋势已经说明问题。

原则三：应急要有章法，根治要有流程

遇到故障，先按预案处理恢复业务；恢复后必须进行根因分析，找到流程漏洞；然后整改流程，防止同类问题再发生。不能”好了伤疤忘了疼”。

互动话题

你们医院有没有遇到过”监控正常但业务异常”的情况？是怎么发现并解决的？你觉得最应该监控哪些”非传统”指标来预防这类问题？欢迎在评论区分享你的运维实战经验。

> 基于真实医院场景改编，人物均为化名

手机扫码试用患者预约。请勿输入个人真实信息（点击图片可查看原图）

支持8种语言：简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

云南医院HIS系统 YNHIS.COM KMHIS.COM

Tag: Medical institution software