“违约金每天3%?”——那次差点把老板气疯的合同谈判,及条款背后的博弈智慧

会议室里,杨院长和采购办的刘主任,坐在一边。

周总和小张,坐在另一边。

桌上放着两份合同草案,一模一样,除了一个地方——延误违约金

软佳的版本:

> “如果系统上线延期,每延期一天,支付合同金额的0.5%作为违约金,上限为合同总额的10%。”

医院的版本:

> “如果系统上线延期,每延期一天,支付合同金额的3%作为违约金,上限为合同总额的50%。”

三倍差距。

周总看到医院的版本时,差点把水喷出来——580万的3%,一天17.4万,十天就174万,远超合同利润。

“刘主任,3%是不是太高了?我们580万的合同,延期一天就要赔17万?十天就赔170万,我们不用干了。”周总说。

刘主任淡淡地说:”周总,我们这么大的医院,每天门诊收入多少你知道吗?几百万。如果你们系统延期,我们门诊受影响,损失谁赔?3%已经是很客气了。”

周总没说话,心里在计算。

这合同没法签。延期一天赔17万,十天就破产了。

但不要这单,公司损失更大——这是年度最大的单,而且标杆意义重大。

1. 不能只谈”违约金”,要谈”责任归属”——引入对等条款

周总问了一个问题:”刘主任,如果延期,责任一定是我们吗?”

“合同白纸黑字,按时上线是你们的义务。”刘主任说。

“但如果延期是因为贵院的原因呢?比如,”

周总伸出指头:

– “你们提供的测试环境不稳定,导致我们无法测试”

– “或者你们需求变更频繁,导致我们返工”

– “或者贵院网络不通,我们集成不了”

– “或者贵院人员不配合,签字审批延迟”

– “或者第三方厂商(如硬件供应商)延迟交货”

刘主任被问住了。

“合同条款,不能只说’你要赔’,还要说’如果是我造成的,我不但要你赔’。”周总打开带来的笔记本,”我们带来了一个’对等责任条款’草案,您看看。”

草案内容:

– 双方任何一方违约导致延期,都应向对方支付违约金

– 违约金的计算方式,基于造成的实际损失(而不是固定比例)

– 如果延期由双方共同原因造成,按责任比例分摊

– 有一方故意或重大过失,承担主要责任

刘主任摇头:”我们要的是保障。按你们的草案,真出事了,你们一句’医院也有责任’,就不用赔了?”

“不是不用赔,是照实赔。”周总说,”但关键是,我们要先定义什么叫’延期’。”

2. “上线”的定义:验收标准必须清晰

周总拿起笔,在白板上画了一个时间轴:

“`
需求确认 → 设计 → 开发 → 测试 → UAT → 上线
“`

“刘主任,请问’上线’是指哪一天?”

“系统正式投入使用那天。”

“那UAT(用户验收测试)通过,算上线吗?如果不算,UAT到正式上线之间,如果出问题算谁的责任?”

刘主任说:”UAT通过,就算验收合格,应该付尾款。之后的事,是运维。”

周总摇头:”UAT是通过了,但正式上线第一天,医生不会用,护士站报错,财务对账有问题——这些算系统的质量问题吗?还是算培训不到位?上线第一个月内的故障,算不算延期?”

刘主任语塞。

周总提出一个方案:阶梯式验收

1. 技术验收:UAT通过,功能符合需求 → 付90%合同款

2. 业务验收:正式上线后7天内,核心业务零重大故障 → 付5%

3. 稳定运行验收:上线后30天,系统可用率>99.9% → 付最后5%

如果前两步失败,责任在我们,我们整改,不额外收钱;如果最后一步失败,我们有义务继续整改,但不触发违约金。

“这样,’上线’的定义就清晰了,责任划分也清楚。”周总说。

刘主任想了想:”如果业务验收失败,我们不是还得等?”

“是,但这是双赢——你们要的是稳定系统,不是按时交付但一堆bug的系统。”周总说。

杨院长插话:”这个阶梯验收,合理。”

3. “重大故障”的量化定义:避免事后扯皮

刘主任终于松口了阶梯验收,但加了一个条件:

“如果上线后一个月内,出现三次以上’业务中断’(比如门诊挂号失灵、住院无法入出转),除整改外,每发生一次,扣减尾款1%。”

周总心里算了一下:尾款5%,三次就扣3%,相当于少赚六十多万。

“这个可以,但需要定义什么叫’业务中断’。”

“挂号系统不能用,收费系统不能用,就是业务中断。”

“那如果只是某个功能慢一点,但没有完全不能用,算吗?”

“不算。”

“如果某个科室因为网络问题,不能用,但其他科室能用,算吗?”

“要看影响范围。影响全院,算;影响单个科室,不算。”

周总继续追问:”影响50%以上的科室,算吗?”

“算。”

周总把它写进条款:

> “业务中断”定义为:影响超过50%用户的系统功能不可用,持续时间超过15分钟

“这样明确,双方都有数。”

刘主任点头。

4. 需求变更:最毒的”隐性延期”陷阱

刘主任最后提了一个要求:”合同里要写清楚,如果需求变更,你们必须配合,不得推诿。”

周总笑了:”刘主任,任何变更,都是有成本的。我们可以配合,但需要有个流程:**

– 变更申请(书面)

– 评估影响(工期、成本)

– 双方签字确认

– 执行**

“那是不是我们每次提变更,你们都要加钱?”

“不一定。如果变更很小,不影响工期和成本,可以免费。但如果变更大,增加了工作量,我们需要相应调整合同金额和工期。”

刘主任不同意:”合同价格不能变。”

周总:”那我们就严格按需求来。如果需求之外的变更,我们不做,或者另签补充协议。”

这是底线。

刘主任想了想:”可以,但变更评估要公正,不能你们说多少就多少。”

周总:”评估我们可以一起做,用你的需求文档和我们的工时表。第三方介入也可以。”

刘主任:”那评估周期多长?”

“三个工作日。”

“太长!”

“太短评估不准。三天是底线。”

5. 最终敲定的核心条款

经过两轮谈判,合同条款基本定稿:

1. 交付与验收

– 分三阶段验收:技术验收(UAT通过)→业务验收(7日无重大故障)→稳定验收(30日可用率>99.9%)

– 每阶段验收通过,支付相应比例款项(90%→5%→5%)

2. 违约金

– 仅针对”技术验收延期”(从合同约定日期到UAT通过)

– 违约金=延期天数×合同金额×0.3%(原0.5%)

– 上限=合同总额的10%(原50%)

– 如果延期是医院方原因导致(如需求变更、评估延迟、环境问题),医院方需补偿我方额外成本(按实际工时计算)

3. 业务中断

– 定义:影响超过50%用户,持续15分钟以上

– 验收期内每发生一次,扣减尾款1%(最多扣3%)

– 验收期后,进入运维期,业务中断不计入违约,但列入服务考核

4. 需求变更

– 医院方提交变更申请

– 双方共同评估影响(工作量、工期)

– 如果影响工期内完成,免费;否则,签补充协议调整价格和工期

5. 知识产权

– 软件开发成果归医院所有

– 但软佳保留软件著作权(这是行规)

– 医院获得永久使用许可,可自行维护或委托第三方维护

6. 付款方式

– 合同签后预付30%

– UAT通过后付60%

– 稳定验收后付尾款10%(原5%)

6. 这个条款,后来救了两方的命

合同签订后,项目进行到一半,医院提出一个”小变更”:在医嘱界面加一个”过敏史提醒”弹窗,医生开药时自动显示患者过敏史。

评估发现:这个”小变更”涉及三个模块的接口调整(患者主数据、医嘱、药方),需要重新做兼容性测试,增加工作量15人天。

按合同,应该签补充协议。

医院说:”我们就加个弹窗,为什么要加钱?”

周总说:”不是弹窗简单,是它要对接患者过敏史数据库,要实时查询,要弹窗样式审批,要护士站测试,要更新用户手册…这些工作量不小。”

刘主任起初不同意,后来想起合同条款,只好认:”那签补充协议吧。”

补充协议签了,增加合同额12万,工期延长10天。

如果没有这个条款,医院可能强行要求”免费加功能”,导致项目延期,然后医院又要按延期违约金扣款——软佳就冤死了。

反过来,如果软佳想随意涨价,医院也可以拿条款约束。

7. 合同不是”敌我条款”,而是”游戏规则”

周总后来在软佳内部培训时,说:

“很多销售,把合同当成’签下来就完事’,条款都是模版,客户爱签不签。

但一份好的合同,不是’敌我条款’——不是只保护一方,是(‘平衡条款’)。”

它应该:

– 明确责任边界,避免后期扯皮

– 提供变更渠道,让变化有章可循

– 尊重双方的合理诉求

“客户签合同时不舒服,后期执行就会更不舒服。相反,如果客户觉得条款公平,后期配合度也会高。”

“我见过最糟糕的合同,是那种’我全赢,你全输’的条款。客户签的时候迫于压力签了,后期处处找茬,恶意延期验收,恶意扣款,最后打官司。”

“好的合同,是(‘双赢框架’)——虽然是一场博弈,但博弈的结果是双方都能接受。”

“这次XX医院的合同,就是典型案例。违约金我们谈下来了,但我们也接受了’阶梯验收’和’业务中断扣款’,这些对客户是保护,对我们也是鞭策——逼着我们把系统做稳定。”

8. “合同精神”比”合同文本”更重要

合同签了,但执行中还是有问题。

有一次,医院方在验收时,故意鸡蛋里挑骨头,说”某个按钮颜色不对”,要扣5%尾款。

周总找刘主任:”这个不算重大故障,是UI细节,不触发扣款条款。”

刘主任说:”我们不扣款,但你们得改。”

周总:”可以改,但要走变更流程,加钱。”

刘主任:”这么小的事也要加钱?”

“这不是大小的事,是原则的事。”周总说,”如果今天颜色不对扣款,明天字体不对也扣款,后天是不是功能不对也要扣款?合同里的’业务中断’有明确定义,颜色不对不算。”

刘主任被噎住了。

最后,软佳免费改了那个按钮颜色——因为确实是小事,没必要闹僵。

但周总强调:原则问题不能让

“合同是底线。如果客户随意突破底线,以后会更难合作。”

9. 合同的”兜底条款”:不可抗力

周总还特别加了一条”不可抗力”条款:

> “因地震、洪水、战争、大规模网络攻击等不可抗力导致的延期或故障,双方互不承担违约责任。”

刘主任问:”大规模网络攻击也算?”

“算。”周总说,”现在的系统,DDoS攻击、勒索软件,都是真实风险。我们不能让客户承担’黑客’的后果。”

刘主任以为然。

这条款后来真的用上了——半年后,有黑客攻击了医院内网,虽然不是HIS系统,但医院网络瘫痪了4小时。软佳没有因此被扣款。

10. 合同谈判的”终极心法”:让客户感觉”赢了”

周总的谈判哲学:

① 永远不要只防守

– 不要只说”这个不能改”

– 要说”这个不能改,但我可以在其他地方补偿你”

② 给客户”赢”的感觉

– 价格不降,但送服务

– 条款不让,但提供额外保障

– 客户要的是”好处”,不是”让步”

③ 把”我的利益”包装成”我们的利益”

– “违约金太高对我们都不好——我们亏钱了,你们也得不到好服务”

– “分级验收对你们也好——你们要的是稳定系统,不是按时交付但一堆bug的系统”

④ 用数据说话,不用情绪

– 周总从不跟刘主任吵架

– 每次讨论,都拿出白板,写写画画,算账

– 账算清楚了,情绪就少了

互动话题

你签过最公平/最不公平的合同条款是什么?

> 基于真实医院场景改编,人物均为化名


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

预约管理:从高爽约率到智能高效的门诊引擎

“医生,我明明预约了,为什么来了一看,号被取消了?”

下午2点17分,海南海口XX社区医院的门诊大厅,空调开得很足但依然闷热。一位穿着碎花连衣裙的年轻女子大步走到分诊台,把手机屏幕怼到护士长周大姐面前,声音尖锐。

周大姐刚刚忙完一个急诊患者的登记,額头上沁着汗。她抬头看了看女子手机上的预约记录——昨天下午3点预约的今天下午2点30分的内科门诊,现在时间是2点17分,系统状态已经显示”已释放”。

“女士,您看,”周大姐指着屏幕,努力保持微笑,”系统在预约时间后15分钟,连续给您发了3条微信提醒,您一直没回复,而且迟到超过15分钟,系统自动把号源释放给候补患者了。这是规则,不是我们取消您的。”

“规则?谁定的破规则!我明明预约了!”女子声音更高,周围候诊的患者纷纷侧目。

这已经是今天第三起了。周大姐心里有苦说不出:不是医院取消预约,是患者自己没来。系统自动释放本意是资源再利用,但很多患者不理解,认为是医院”黑箱操作”、不守信用。

女子还要争辩,这时门诊部主任李主任快步走过来,手里拿着今天的爽约报表——上午已发生类似投诉4起,爽约率依然在20%高位徘徊。

“这是我们的智能化预约管理系统,”李主任对女子耐心解释,”您约了号不来,又不取消,就会占用一个资源,让真正需要的患者看不上病。系统自动释放,是为了让号源流动起来。如果您能提前取消或准时到,系统就不会这样。”

女子不说话了,但表情依然不服。她知道是自己迟到,但面子上下不来。

李主任看着女子转身离去的背影,心里暗暗下定决心:一定要把爽约率降下来,不仅要技术手段,更要让患者理解规则

困境:20%爽约率的资源浪费

这家社区医院在海口市区,日接诊量200+。过去一年,爽约率高达20%,意味着每天15-20个空档。患者抱怨”约不到医生”,医生抱怨”上午空荡荡,下午忙死”,而真相是:号源被放了鸽子。

医院尝试过人工管理:

– 护士每天打20-30个电话确认预约

– 手工登记爽约名单

– 对爽约3次以上患者限制预约

但效果有限:

– 电话打不通,患者不接

– 患者说”我忘了”,护士也没办法

– 限制预约引发投诉

“人工确认成本高,覆盖率低,而且 nurse-patient 关系受影响。”李主任说。

更严重的是资源错配

– 上午8-10点,爽约率高,医生闲置

– 下午2-4点,患者集中,候诊时间延长

– 患者满意度下降,流失率上升

财务算账:每天15个空档,每个空档损失挂号费10元+诊疗费50元=60元,年损失=15×60×365=32.85万元。

“这笔账不能再亏了。”李主任下决心。

转机:软佳智能预约模块

2025年,软佳升级门诊系统,新增智能预约模块。信息科小陈详细介绍了”减少爽约四步法”:

第一步:全渠道统一预约

– 微信、官网、自助机、电话,所有渠道数据实时同步

– 统一的号源池,避免重复预约

– 患者可随时随地取消/改期

“我们原来电话预约,信息手工录入,经常出错或遗漏。”周大姐说。

第二步:三级智能提醒

– 提前24小时:微信模板消息,含时间、医生、科室

– 提前2小时:再次提醒,附取消/改期链接

– 提前30分钟:”是否已出发?”确认到院提醒

“消息打开率85%以上,”小陈展示数据,”可大幅减少’忘记’。”

第三步:爽约自动释放

– 预约时间后15分钟,患者未签到,系统自动释放号源

– 释放前会发送3次提醒(第0、5、15分钟)

– 释放后,该患者爽约记录+1,3次爽约将限制预约

“这不是惩罚,是资源再利用。”小陈解释。

第四步:动态候补队列

– 释放的号源,系统自动通知候补患者

– 候补患者可一键抢号

– 形成自动的”排队捡漏”机制

冲突:实施阻力与人性考量

李主任召集会议讨论是否引入。

财务科:”软佳年费1898元,包含这个模块吗?需要额外投入吗?”

“包含在全功能套餐中,无需另付费。但需要配置规则和培训。”

护士长:”患者会不会觉得’被系统针对’?”

“我们-design 的是引导而非惩罚。释放前多次提醒,给足机会。”

医生:”爽约是患者问题,为什么要我们配合?”

“爽约影响大家效率。如果上午空荡荡,下午忙死,医生也累。平衡工作量对大家都好。”

最大的顾虑:老年人不会用手机怎么办?

“保留电话预约渠道,但电话也要登记到系统,同样享受提醒。不放弃任何患者。”

院长:”先在内科、儿科试点一个月,评估效果再推广。”

蜕变:爽约率从20%到9%的突破

试点从2025年10月开始。

Week 1:配置与培训

– 设置爽约规则:15分钟后释放,3次爽约限制

– 配置提醒模板(三次内容不同)

– 培训护士、前台、患者如何使用

Week 2-3:问题磨合

– 问题1:部分患者抱怨消息太多 → 改为可配置,患者可自主选择提醒频率

– 问题2:释放后患者突然到来 → 增加”二次确认”机制:15分钟后再次推送”是否延迟?10分钟内回复可保留”

– 问题3:候补功能知晓度低 → 在预约页面增加醒目入口,护士主动推荐

Week 4:效果初显

– 爽约率:20% → 13%

– 候补抢号成功率:12%

– 患者投诉:”号被取消” → 转为理解:”原来系统提醒了”

Month 2-3:稳定运行

– 爽约率稳定在9%左右

– 候补机制每天释放10-15个号,15%被抢空(相当于多看2-3个患者)

– 护士从每天20+电话确认,降到5个以下

数据对比(试点3个月)

维度 实施前 实施后 变化
爽约率 20% 9% -11%
每日空档数 15个 7个 -8个
候补抢号成功率 0% 15% 新增
护士电话确认工作量 每日25次 每日5次 -80%
患者满意度 72% 84% +12%
年均收益(减少空档) 基准 ≈16万 新增长

“我们每天多看了8个患者,一年就是近3000人次。”李主任算账。

更无形的是患者行为改变

– 患者更重视预约,临时有事会主动取消

– 守约意识增强

– 对候补机制点赞:”公平,让需要的人看上”

价值延伸

工作量均衡:上午空档减少,下午高峰压力缓解

医生满意度提升:不再上午闲下午忙

财务增收:相当于年增收16万元

管理数据化:爽约率、候补率、各医生预约热度,一目了然

全成本核算

– 软佳年费:1898元(包含预约、候补、提醒全功能)

– 人工确认成本:护士每天25通电话×3分钟×365天≈91小时≈1.5人月≈2万元

– 年节省:2万 – 0.19万 = 1.81万元

– 加上增收16万,总价值≈18万元

“投入产出比1:95。”李主任说。

回响:预约管理的本质是信任

现在,当患者问”为什么我的号被取消了”,周大姐会耐心解释:

“系统在您预约时间15分钟后没看到您,会发3次提醒。如果还是没来,就自动释放给其他需要的患者。这不是惩罚,是资源最大化利用。”

很多患者理解后,反而点赞:”应该的,约了不来就是浪费资源。”

李主任在科室会总结:

“预约管理不是技术问题,是信任与公平的问题。

“系统不能替人做道德判断,但可以通过机制设计,引导正向行为。减少爽约,不是惩罚迟到者,是保护守约者的权益。

“软佳的智能预约,做的就是这件事:让每一个认真守约的患者,都有机会看上病;让每一个空档,都有需要的人填上。”

回想那个患者投诉的下午,李主任感慨:门诊效率的瓶颈,往往在最不起眼的预约环节

软佳的预约管理,用智能提醒、自动释放、候补队列,把”放鸽子”的损失降到最低,把资源利用率提到最高。

“1898元/年,换来的是年增收16万,患者满意度提升,护士减负。这笔投资,太值了。”

声明:本文基于真实客户案例改编,机构名称、人物均为化名,爽约率等数据为试点统计,实际效果因机构地域、患者群体、规则设置而异。产品功能与价格截至2026年5月,请以实际试用为准。

核心金句:

“爽约不是小事,是别人看不了病的代价。”

“最好的预约管理,是让患者自己管理自己。”

“释放的不是号源,是资源的善意循环。”

互动话题:

贵院的预约爽约率大概是多少?是怎么管理的?

如果实现智能预约,爽约率降低到10%以下,对您的门诊意味着什么?

您认为减少爽约,关键在技术系统,还是在患者教育?


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

真停电了:那次”演练成真”的72小时与灾备系统的终极考验

凌晨两点,XX医院。

主数据中心机房,突然停电。

不是演练,是真的——市电故障,加上UPS电池老化(三年没检测),未能及时切换到电池供电。

整个医院HIS系统,在零点17分,瞬间离线。

门诊挂号停摆,住院系统失联,药房发不了药,检验科做不了标本,急诊科只能手工记录。

值班工程师小吴发现异常,两分钟后,给老周打电话。

老周从床上跳起来,一边穿衣服一边想:四个月前的那次灾备演练,终于派上用场了

那是去年12月的灾备演练,当时切换失败,备用数据中心检测不到,手动切换功能也没有。那次演练,暴露了三个问题。

这四个月,他们一直在整改。

而今天,真停电了。

1. 第一反应:不是”抢修”,是”切换”

老周在电话里问小吴:”主数据中心完全断电了吗?”

“是的,所有设备都断电了。UPS也耗光了。”

“备用数据中心呢?”

“还没检测到,我们在手动查。”

“用应急手动切换U盾!”老周吼道。

他记得四个月前那次教训——不能依赖自动切换。万一自动切换失败,必须有人工手段。

小吴跑向机房,从保险柜里取出那个黑色的U盾,插入备用数据中心的控制台。

手动切换流程,在预案里写得清清楚楚:

1. 登录备用数据中心管理后台

2. 点击”紧急接管”按钮

3. 确认切换(会强制把负载均衡指向备用数据中心)

4. 验证业务状态

小吴的手有点抖。他虽然是工程师,但这是第一次”实战切换”——不是演练,是真停电了。

点击”紧急接管”。

系统提示:”接管成功,预计30秒内生效。”

他盯着负载均衡的实时状态:

– 主数据中心IP:离线

– 备用数据中心IP:生效(绿色)

30秒后,护士站的小张刷新页面,看到系统回来了。

“能用了!”小张喊。

2. 切换后,数据一致吗?——那个0.02%的差异

老周赶到医院时,已经是凌晨三点。

信息科李主任在机房外走来走去,神色焦虑。

“周总,数据有没有丢?我们最怕这个。”

老周没直接回答,而是问:”切换后,有没有医生报错?”

“暂时没听说,但这才切换了不到一小时…”

老周打开备用数据中心的监控面板。

灾备系统的设计,是主数据中心实时同步数据到备用数据中心(异步 replication,延迟1-3秒)。理论上,数据应该是”零丢失”——主数据中心断电前最后的事务,应该已经同步到备用。

但他查数据对比:用脚本比对主库最后一次备份(昨晚00:00)和备用库当前数据,差异率是0.02%。

那0.02%是什么?

是断电前30秒内产生的数据——因为同步延迟,这部分还在主数据中心的内存里,没来得及写磁盘,就断电了。

切换后,这部分数据永久丢失了。

“有多少数据?”

“正在估算。挂号、医嘱、收费…大概几百条。”

李主任脸色变了:”几百条?”

“主要是挂号记录。”老周说,”如果病人在断电前刚挂上号,但还没缴费,数据丢失,他们会以为挂上了,但实际上没挂上。这会引发纠纷。”

李主任:”那怎么办?”

“我们有个预案:断电恢复后,主数据中心重启,会尝试从备用库同步回主库。如果同步成功,数据能补回一部分。但如果是事务中途断电,可能补不回来。”

老周决定:不等了,现在就去主数据中心,尝试恢复

3. 主数据中心恢复:希望与绝望交织

早上五点半,市电恢复。

主数据中心可以通电了。

老周和李主任,带着运维团队,在主数据中心机房。

设备一台台启动:

– 网络设备

– 存储设备

– 数据库服务器

七点,数据库启动成功。

启动后的第一件事:尝试从备用数据中心,同步回主数据中心的数据。

同步开始。

但同步报错:主库的某些数据,已经被断电前的事务部分修改过,和备用库的版本冲突。

数据库自动冲突解决机制,选择了”以主库为准”——意味着主库的数据会覆盖备用库。

问题是:主库断电前的数据,本身就是不完整的(内存中的数据没持久化)。

这可能导致:备用库里有的数据,主库里因为断电前部分事务已经提交,反而”多”了一些数据;或者反过来,”少”了一些数据。

手动检查发现:

– 有大约200条记录,主库有、备用库没有(备用库没收到)

– 有大约150条记录,备用库有、主库没有(主库内存丢失)

“这怎么搞?”李主任快要崩溃了。

老周说:”我们只能手工对比,确保一致性。”

他们制定了手动对账流程:

1. 导出主库的今日所有业务记录(时间范围:断电前24小时)

2. 导出备用库的同时间记录

3. 对比关键业务:挂号、住院登记、医嘱、收费

4. 发现差异,人工核查(查看业务日志、纸质记录)

5. 对无法确定的差异,标记为”待调查”,业务上补偿(比如给病人重新挂号)

这个流程,花了整整一天,八个人同时核对。

到晚上八点,对账完成:

– 挂号差异:37条,已人工补录

– 住院登记差异:5条,已补录

– 医嘱差异:0条(医嘱还没有产生,或已同步)

– 收费差异:12条,已财务手工调账

“业务基本恢复。”老周说,”但今天的数据,还有一部分在备用库,没同步回主库。明天早上还要做增量同步。”

李主任松了口气。

4. 事故分析:暴露了多少问题?

事故后第三天,老周主持了深度复盘。

参会者:软佳团队、信息科全体、医院领导。

发现的问题清单 (根本原因分析,5 Whys):

问题1:UPS电池老化,没有定期检测

– 为什么?——电池检测制度是”每半年一次”,但去年只做了一次

– 为什么没做?——没人跟踪执行

– 为什么没人跟踪?——运维清单不完整

问题2:主数据中心断电后,没有及时通知备用数据中心”已失去主中心”

– 备用数据中心靠心跳检测主中心状态,心跳没断(网络还通着,因为网络设备有UPS),所以备用中心不知道主中心已经断电

– 切换依赖”主中心故障+心跳丢失”双条件,但这次是主中心断电但网络设备还活着(有UPS),心跳没丢

手动切换救了命

问题3:数据同步延迟导致丢失

– 同步是异步的,延迟1-3秒

– 这1-3秒的数据,断电就丢了

– 要达到”零丢失”,必须用同步复制(但会影响性能,降低吞吐量30%)

问题4:主中心恢复后,数据冲突解决机制不合理

– 默认”以主库为准”,但主库断电是不正常状态

– 应该优先以备用库为准,因为备用是正常状态

– 应该在切换前记录”最后一致时间戳”,恢复时根据时间戳判断

问题5:没有”业务快速恢复”预案

– 数据不一致时,业务不知道怎么办

– 应该像银行一样,有”业务补偿流程”:数据不一致时,如何快速让病人看上病、用上药

5. 系统性整改:从”能切换”到”切换后业务无感”

老周和信息科一起,制定了整改计划,投入80万。

1. 基础设施升级(预算40万)

– UPS电池全部更换,半年检测制度(写进SOP)

– 主数据中心增加柴油发电机(支持8小时)

– 备用数据中心增加独立市电接入(双路市电)

– 增加环境监控(温湿度、漏水、门禁)

2. 灾备切换机制优化(预算15万)

– 心跳检测增加”电力状态”监控——如果主数据中心电力丢失,不管网络通不通,立即切换

– 增加”一键切换”按钮,贴在所有关键岗位墙上(物理按钮,防误操作)

– 每季度演练一次手动切换(真断电,不只是模拟)

3. 数据同步优化(预算10万)

– 评估”同步复制”可行性(可能性能下降20%,但保证零丢失)——决定保留异步,但优化

– 增加”断电前最后60秒日志缓存”,主中心断电前,把最后的事务先写入共享存储(SAN),备用中心可以先读这个

– 增加”切换点标记”,每次切换记录时间点,便于恢复

4. 主备恢复流程标准化(预算5万)

– 主中心恢复后,数据同步策略改为”以备用库为准”

– 对账流程自动化(每天凌晨自动比对核心业务数据)

– 差异处理流程文档化,包括业务补偿标准

5. 业务连续性保障(预算10万)

– 最坏情况预案:数据完全无法恢复,如何手工恢复业务?

– 方案:启用”应急纸质表单”,所有业务先手工登记,系统恢复后补录

– 这个方案要提前告知临床科室,让他们有心理准备

– 对医护人员进行”应急模式”培训

6. 一个月后,再次演练:从70分到95分

整改完成后,老周组织了”全真演练”。

这次,他们模拟的场景是:主数据中心断电且断网(比上次更难)。

发现的新问题:

– 备用数据中心启动时间比预期长(15分钟 vs 目标5分钟)——因为存储阵列自检慢

– 业务验证脚本跑不通(有些功能依赖主数据中心的环境变量,没考虑到)

– 切换后,财务科发现”当日收入统计”不准(因为数据延迟,部分收入不在统计窗口内)

继续改。

第二次演练,完美。

老周给信息科的评分:从70分提升到95分。

李主任说:”现在我们不怕停电了,就怕不演练。”

7. 杨院长的话:选择合作伙伴,不是选价格,是选关键时刻靠得住

事故后一个月,杨院长在一次全院大会上说:

“信息系统,是我们医院的神经系统。这个神经系统,不能只有一个大脑,要有备份。这次停电,我们见识了备份的价值。

但更重要的是,我们见识了我们的信息科和软佳团队的专业和负责。凌晨三点,周总带着人赶到医院;四十八小时,没睡过一个整觉;对账、补数据、恢复业务…

选择合作伙伴,不是选价格最便宜的,是选关键时刻靠得住的。”

周总坐在台下,没说话,但记住了这句话。

8. 灾备的”本质”:不是”有”,是”能用”

老周后来在多个场合分享这次经历。

他的核心观点:

灾备系统,不是”买一个放在那里”就行,而是要让它”用过”。

只有演练过,才知道切换按钮在哪里;只有演练过,才知道数据对账流程有多复杂;只有演练过,才知道业务部门需要什么预案。

“很多单位,灾备系统建好了,五年没启用过,美其名曰’系统稳定,没机会用’。但真出事的时候,发现这也不会、那也不熟,灾备系统等于没有。”

灾备的价值,不在于备用,在于能用。

软佳现在的做法:

– 每季度一次真刀真枪的演练(部分业务切换到备用中心,半小时后再切回)

– 每年一次全站演练(主中心完全断电)

– 每次演练后写报告,改进流程

客户一开始嫌麻烦,现在主动要求演练——因为他们 seeing 了价值。

9. 灾备的”成本”与”风险”权衡

有客户问老周:”灾备这么贵(软佳的灾备方案加价30%),值吗?”

老周反问:”你们醫院一年营业额多少?”

“大概10亿。”

“如果系统瘫痪三天,损失多少?”

客户算了算:门诊停三天,损失至少3000万。还不算声誉损失、病人流失、卫健委处罚。

“灾备花300万,保3000万,值吗?”

客户不说话了。

“而且,灾备不是’一次投入’,是持续投入——每年演练、每年升级、每年测试。”

“但比起系统瘫痪的代价,还是划算的。”

10. 给所有技术负责人的建议:不要等出事才后悔

老周最后的总结:

① 灾备不是选择题,是必答题

– 只要系统在生产环境运行,就必须有灾备

– 特别是医疗、金融、政务系统,不能承受数据丢失

② 灾备的”可用性”比”存在”更重要

– 有灾备但不演练 = 没有

– 定期演练,确保切换按钮有人会按、流程有人懂

③ 灾备要有”业务视角”

– 不是”数据能恢复”就行,是”业务能继续”

– 要有业务补偿方案(手工登记、应急表单)

– 要让临床科室参与演练

④ 灾备的”成本”是投资,不是开销

– 一次事故的损失,可能超过十年灾备投入

– 保险思维:小额确定性支出,对冲大额不确定性损失

互动话题

你的系统有灾备吗?演练过吗?实战用过吗?

> 基于真实医院场景改编,人物均为化名


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。