系统卡顿引发的患者冲突:一场发生在贵州县医院的性能战争

上午10点43分,贵州贵阳XX县医院门诊大厅的空气凝固了。收费窗口前排起的长龙突然爆发出一阵争吵。

“我排了20分钟队,你们系统又卡了?!”一位50多岁的中年男子把病历本拍在窗口台上,脖子上的青筋都暴了出来。

收费员小王额头冒汗,手指在键盘上狂敲,屏幕上那个旋转的”加载中”圆圈转得让人心慌。”张师傅,不是我不收钱,是系统转圈圈转不出来。”

“我过敏史、医保卡都递进去了!现在让我重填?”患者的妻子也急了,声音尖利,”你们这效率,我们来来回回跑几趟?”

周围排队的人面面相觑,随即抱怨声四起。导诊台三个护士跑过来调解,但情绪像病毒一样传染。诊室3区,一位患者因为病历打不开,在里面和医生大声争执;药房取药窗口,药师扯着嗓子喊:”6号处方系统里看不到!刚开的!”

信息科值班员小马,27岁,软佳科技驻场在这家医院的实施工程师,此刻正躲在后台机房盯着服务器监控屏幕。他的后背已经被冷汗浸透——过去一个月,类似投诉已经13起。三天前院长下了最后通牒:”小马,再出一次大面积卡顿,系统停用,重新选型。”

小马深吸一口气,调取实时监控。硬件配置完全够:Dell PowerEdge R740,32G内存,SSD硬盘,千兆内网。但为什么每到高峰期(9-11点、14-16点)就卡顿?他打开慢查询日志,三个核心功能的响应时间触目惊心:

– 医生打开患者历史病历:平均4.2秒

– 药品下拉列表加载:平均3秒

– 收费结算:平均2.8秒

“4秒才能看历史病历,一个医生每天要看50+患者,单这一项就多花3分钟+,乘以门诊量300+……”小马在笔记本上快速计算,”这还不算用户重复操作的次数。一个高峰期,系统消耗的无效等待时间,至少是200人·小时。”

他想起主任的话:”县医院接诊量不大,日门诊量也就300多人,系统怎么就这么慢?”但300人不假,每个操作慢3秒,叠加起来就是灾难。高峰期100人同时在线,每秒并发请求30+,系统就像塞车的城市道路,每辆车都在等红绿灯。

小马拿起手机,给软佳总部技术团队发了紧急消息:”XX县医院,情况危急,需要深度性能剖析支援, ASAP。”

小马是软佳科技驻场到这家医院的实施工程师,27岁,贵州本地人。去年大学毕业进了软佳,这是他负责的第4个项目。前3个项目都比较顺利,但这家县医院的问题,让他连续两周没睡好。

“小马,到底能不能解决?”院长在技术协调会上直接问,”我们县医院接诊量不大,日门诊量也就300多人,系统怎么就这么慢?”

小马不敢打包票,但他知道,软佳的技术团队在昆明随时可以支援。

过去两周,小马已经做了初步排查。他用监控工具抓取了高峰期的系统数据,发现瓶颈集中在数据库和软件代码层面,而非硬件。

“院长,我现在要做一个深度诊断,可能需要1-2周时间。期间系统可能会有些调整,但我们会错峰进行,不影响门诊。”小马说。

院长点头:”给你时间,但要见效。”

小马的通知单发出去后,软佳总部技术团队派来了两位顾问:数据库专家老林和架构师老周。

三人碰头的第一天,老林就说:”我们先做一次完整的性能剖析,找出慢的原因。”

他们从三个维度入手:

第一,病历查询慢。

医生打开患者历史病历时,系统要查询 patientmedicalrecord 表。这条SQL很简单:

“`sql
SELECT * FROM patient_medical_record
WHERE patient_id = ?
ORDER BY visit_date DESC
“`

但执行一次要4.2秒。为什么?老林分析执行计划,发现字段 patient_id 没有索引,每次查询都是全表扫描。更糟糕的是,有些患者就诊次数多(>50次),一查就是几万条记录,越查越慢。

第二,药品加载慢。

医生写病历时,要选择药品。药品下拉列表有3000+条记录,每次打开都从数据库全量查询。而且没有缓存,哪怕上午刚查过,下午再开又要重新查一次。耗时3秒。

“医生等3秒没什么,但一天开100张处方,就是300秒,5分钟浪费在等药品列表上。”老周说。

第三,收费结算慢。

缴费时,系统要遍历所有处方项目,计算总额。并发高时(早高峰),多个收费窗口同时操作,数据库连接池很快耗尽,后续请求开始排队。平均响应2.8秒,收费窗口前就开始堵人。

“还有,”小马补充,”系统老问题很多。比如患者基本信息,没有做缓存;比如报表查询,是直接从生产库读;比如权限验证,每次请求都查数据库…”

老林总结:”典型的’能用就行’架构,没考虑性能。”

诊断完成,下一步是优化方案。

老林负责数据库层面:

1. 给 patientmedicalrecord 表加索引,按 patientid 和 visitdate 建立复合索引

2. 病历查询改为分页,每次只取最近20条

3. 高频率查询的表(药品、患者)建立查询缓存

老周负责架构层面:

1. 医生开处方时,实时计算费用明细并缓存,缴费时直接读取

2. 患者基本信息、药品字典加载到内存缓存(Redis),每次优先从缓存读

3. 报表类查询从只读备库走,不影响主库

小马负责实施:

1. 先在测试环境验证效果

2. 选择低峰期(下午1-3点)逐次上线

3. 监控每项优化的影响

4. 准备回滚方案

“我们分三步走,”老周说,”第一周做SQL索引和第二级缓存;第二周做架构调整;第三周观察效果,再做微调。”

实施过程并非一帆风顺。

第一天加索引,系统短暂卡顿了几分钟。有医生反映”病历打不开”,小马紧急回滚,发现是索引重建时锁表导致的。他调整方案:改用在线加索引工具,避免锁表。

第二天上缓存,出现了一个 bug:药品列表缓存更新不及时,新添加的药品在医生端看不到。药房主任投诉:”今天新到的阿莫西林,我怎么在系统里找不到?”

小马赶紧排查:缓存过期时间设成1小时,新药品需要等1小时才能在所有终端同步。他改为”主动刷新+短过期”:添加药品时,系统主动清除相关缓存,下次查询时重建。

第三天调整收费计算逻辑,又出幺蛾子:有个患者的费用明细算错了,多收了20元。原因是缓存的数据格式和计算逻辑不一致。老林加班到凌晨2点,修复了数据转换的 bug。

小马总结了:”性能优化就像做手术,不能急,要一步步来。每动一刀,都要看病人反应。”

两周后,所有优化上线完成。小马在门诊大厅贴出告示:欢迎大家对系统速度进行”找茬”,发现问题及时反馈。

第三天,他拿到了第一组正式数据:

指标 优化前 优化后 提升幅度
病历查询P95响应时间 4.2秒 0.3秒 -93%
药品列表加载 3.0秒 0.1秒 -97%
收费结算响应 2.8秒 0.6秒 -79%
高峰期并发支持 50用户 200用户 +300%
系统慢投诉(月均) 12起 1起 -92%

院长在科室大会上展示这组数据时,全场的目光从怀疑转为惊讶。

“上周我说了,如果系统再卡就停用。”院长说,”今天我要说的是,不仅不停用,还要推广经验。咱们县医院的优化效果,可以作为系统在基层应用的典型案例。”

“最关键的是,”院长顿了顿,”患者投诉’系统慢’这几天几乎没了。收费窗口、药房、诊室,各个部门都反映流程顺畅了。”

一位老医生站起来说:”以前打开病历要等好几秒,现在点下去结果就出来了。这个感受最直接。”

小马坐在角落,松了一口气。

价格问题,院长在总结会上主动提了。

“这次优化是软佳的工程师免费做的,包含在服务里。”院长说,”但我想算一笔账:如果我们县医院一年需要这样的深度优化2次,每次单独请外部团队,费用大概在5-8万元。而我们软佳系统的年费是多少?

“1898元。

“你说便宜不便宜?这1898元,不仅是买一套系统,还包括持续的技术支持、性能优化、安全保障。换做是你们,这笔账怎么算?”

台下有人开始点头。

一位来自邻县的参会代表问:”你们这个系统,会不会用久了又变慢?”

小马回答:”软佳每周都会发布优化补丁,发现问题48小时内响应。而且我们有性能监控平台,可以提前发现潜在问题,主动优化。这不是一次性工程,是持续服务。”

那位邻县代表记了下来。

三个月后,小马回访这家县医院,发现系统依然流畅。他询问IT管理员小陈:”最近还有投诉说慢吗?”

小陈笑了:”上个月只有1起,是因为那位患者用的旧手机,浏览器卡顿。系统本身一点问题没有。”

更让小马欣慰的是,医院信息科的态度变了。过去他们只管”系统能用就行”,现在开始主动关注性能指标,每周看监控报表,发现异常立即上报。

“你们的教育起作用了。”小陈说,”现在我们知道,性能不是玄学,是可以量化和优化的。”

小马想起那个凌晨3点被投诉电话惊醒的自己。那时他以为,系统卡顿是个无解难题——硬件条件有限,用户量增长,慢是必然。

但这次经历让他明白:性能问题往往不是资源不足,而是设计粗糙。很多所谓的”硬件不够”,其实是”软件不巧”。

软佳的定位不是卖一套软件,而是提供持续进化的服务。每一次投诉都是改进的机会,每一次慢查询都是优化的信号。

回昆明总部汇报时,老林对小马说:”你在县医院的这个案例,可以写成一篇技术博客,发到内部知识库。”

小马想了想,写下了三句话,后来成为软佳技术文化的核心:

“系统卡顿不是患者太多,是代码太懒。”

“每一个慢查询背后,都有一个等待的患者。”

“性能优化不是奢侈品,是门诊系统的生命线。”

声明:本文基于真实医院场景改编,人物均为化名,数据为试点统计,实际效果因机构规模、硬件配置、使用习惯而异。

核心金句:

“系统卡顿不是患者太多,是代码太懒。”

“每一个慢查询背后,都有一个等待的患者。”

“性能优化不是奢侈品,是门诊系统的生命线。”

互动话题:

您的门诊系统是否遇到过性能瓶颈?是如何定位和解决的?

如果系统响应速度提升一倍,对您的医护人员和患者意味着什么?

在系统选型时,您是否把性能指标作为核心评估项?


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

距离开业只剩60天:一场与时间赛跑的系统上线

“林院长,营业执照拿到了,但系统还没着落。距离开业只剩60天,我们得抓紧了,否则要赔房东违约金。”

广东深圳南山区科技园,XX国际门诊部的筹备办公室是一间 borrowed 的共享办公空间。合伙人林院长站在白板前,用红色马克笔在日历上画了个大叉——今天是4月25日,开业计划定在6月24日,整整60天。

窗外深圳湾的风景很美,但林院长没心情欣赏。她今年38岁,是三甲医院的 former 儿科副主任,和四位同事一起集资800万开这家中高端外资诊所,主打跨境医疗服务。选址南山,目标客户是外籍人士、海归、高端本地家庭。

但有一个致命问题悬而未决:信息系统还没有

按照原计划,60天内必须完成:选型、签约、实施、培训、试运行。系统一旦延期,整个开业计划都要泡汤,房东租金照收,前期投入打水漂。

她面前放着5家厂商的方案:

某国产大厂:功能全,但实施周期6个月起,”我们的标准流程”

某进口系统:价格贵(年费5万+),实施要3-4个月,排期已到9月

某SaaS诊所软件:轻量,但功能不全,没有英文支持

软佳门诊管理系统:标准部署2-3周,可加速,支持8种语言

“2-3周?”林院长在电话里直接质疑,”你们是不是在吹牛?我们这诊所虽小,但五脏俱全,内外儿护检验药房,都要用。2周就上线?我不信。”

软佳销售小陈在电话那头淡定地说:”林院长,我们24年专做门诊系统,标准流程成熟。您这是全新开业,无历史数据迁移,6个科室规模适中,员工30人以下——这正是我们2-3周的标准案例。关键是——您能不能配合?每天至少有1-2人全身心投入准备。”

林院长心里快速盘算:大厂要6个月,直接pass;进口要3个月,太贵且慢,远超预算;轻量软件功能不够,外籍患者多,必须有多语言。只剩软佳,但”2-3周”听起来像奇迹,会不会牺牲质量?

她走到窗边,看着工地上忙碌的塔吊。作为医生,她知道”快”和”好”往往矛盾。但 reality 是:60天倒计时已经启动,没有第二个选项。

时间第一周:决策与签约

林院长带着小陈列出的”实施周期因素清单”做自我评估:

1. 数据质量:新机构,无历史数据,从零开始 → 有利

2. 科室数量:计划设内科、外科、儿科、检验、药房、收费共6个科室 → 标准范围

3. 培训范围:预计首批员工30人 → 2周内可完成

4. 并行策略:全新开业,无需并行,直接切换

“看来2-3周确实可能。”林院长心想。

但她还有顾虑:”软佳价格是1898元/年,比一些买断软件还便宜,靠谱吗?”

小陈解释:”我们是订阅制,价格透明。实施、培训、数据迁移都包含在内,没有隐形费用。您要做的就是配合准备。”

林院长又问:”和你们同期,其他机构也2-3周吗?”

小陈分享案例:深圳另一家外资诊所,2024年10月签约,11月上綫,从签约到上线共22天。

“如果您能保证每天有1-2人配合准备,60天绰绰有余,甚至可以在开业前5周完成。”

林院长心动了。但作为医疗行业老兵,她知道:凡事要留buffer

“这样,”她说,”我们签约,但要求4周内必须上线。如果延期,你们要负责。”

小陈agree:”我们签合同写清楚,延期有赔付。”

时间第二周:准备与账号开通

签约后第一天,软佳客服发来”实施准备清单”。林院长组织筹备团队开始准备:

– 确定科室:6个

– 医生名单:8人(3名全职,5名兼职)

– 护士/药房/收费:12人

– 药品/收费项目清单:整理出800+项(从采购计划中提取)

– 排班初稿:各医生出诊时间排好

林院长感慨:”还好我们有详细的筹备计划,数据都是现成的。如果是一家老机构要从旧系统迁移,这些真够折腾。”

小陈远程指导,确保清单无误后,开始账号开通和系统配置。

2天后,软佳寄来5台平板电脑(用于分诊和医生工作站),并远程连接到门诊局域网,进行初始化配置。

“你们不用服务器?”林院长问。

“软佳是SaaS,云端部署。您这里只需网络和终端设备。”小陈说。

林院长松了口气。她本来还担心要买服务器、装机房,现在省心了。

时间第三周:培训与数据录入

培训分三批进行:

第一批:管理层+系统管理员(5人),2小时。主要内容:后台管理、报表查看、参数配置。

“原来系统还能这样看数据!”林院长在培训后说,”实时门诊量、各科室效率、医生工作量,一目了然。”

第二批:医生组(8人),2小时。重点:电子病历模板、电子处方、检查申请、药品选择。

一位从三甲医院退休的王医生说:”这系统比我们大三甲的还好用,操作简单,模板也符合习惯。”

第三批:护士/药房/收费组(12人),各2小时。分诊、叫号、发药、收费流程。

最难教的是年长的护士,但经过半天练习,也都上手了。

小陈说:”软佳的设计原则是’3小时上手’。我们不怕您不懂,就怕您不练。”

时间第四周:测试与试运行

系统进入试运行阶段。筹备团队用3天时间,模拟了100+患者的完整流程:

– 预约(微信)

– 挂号分诊

– 医生接诊(开病历+处方+检查)

– 药房发药

– 收费结算

– 检查室接单

– 报告回传

发现3个小问题:

1. 外籍患者英文预约,姓名格式有误(中文姓名转英文乱码)

2. 药房库存没有自动预警

3. 医生打印处方模板偏小

小陈团队48小时内全部修复:

1. 姓名格式改为”姓在前,名在后”,符合国际习惯

2. 增加库存预警功能

3. 调整打印模板,适配纸张

“这响应速度,比我想象的快。”林院长说。

开业前5天:正式切换

试运行3天后,系统稳定。软佳团队建议:直接切换,无需再回旧系统(因为是新机构,无历史数据)。

切换那天,小陈和同事驻场支持。开业前3小时,所有员工最后一次培训,然后系统正式启用。

开业当天,林院长站在大厅观察:患者通过微信预约,到院后扫码签到,分诊屏自动叫号,医生在平板上开处方,药房实时接收,收费自动计算。

“一切流畅。”她心里一块石头落地。

更让她满意的是:一批外籍患者就诊,从预约到取药,全程英文界面,无障碍沟通。这在深圳的外资门诊市场上,是差异化优势

开业后第一周:数据与反馈

林院长坚持每天查看系统后台数据:

指标 目标 实际 评价
系统可用性 >99% 100%
患者平均等待 <30分钟 28分钟
医生投诉 <2起/周 0
系统操作问题 <5次/天 2次(已解决)
培训满意度 >80% 92%

与外籍患者交谈,他们对多语言界面赞不绝口。”这是我在中国看过的最顺畅的诊所。”一位美国患者说。

复盘会上,林院长算了一笔账:

“如果我们选了某大厂6个月实施周期,我们要推迟5个月开业。5个月的门诊收入,按日均50患者、人均500元算,就是:

50人 × 500元 × 30天 × 5个月 = 375万元。

“而我们用软佳,不仅准时开业,还省了这375万的潜在损失。

“软佳年费1898元,这钱花得太值了。”

财务总监补充:”更重要的是,我们开业即盈利,现金流正向。如果延期,还要继续付租金、工资,压力巨大。”

现在,当有同行问林院长”门诊系统怎么选”,她会先说:

“先问自己两个问题:

1. 你有多长时间?

2. 你的核心需求是什么?

“如果时间紧(3个月内要上线),选软佳这种标准部署快的;

如果时间充裕(6个月+),且需要大量定制,可以考虑大厂。

“但别忘了算时间成本。对创业门诊,时间就是生命线,晚开业一天,就是几万损失。

“软佳2-3周的标准部署,对我们这种急着开业的,是救星。”

回想那个盯着”60天倒计时”的下午,林院长感慨:在医疗行业,时间不仅是金钱,还是患者的信任

早一天开业,早一天服务患者;早一天上线,早一天获得数据。

软佳用2周时间,帮她抢回了5个月。

声明:本文基于真实客户案例改编,机构名称、人物均为化名,数据为试点统计,实际效果因机构准备充分程度、网络环境、人员配合度而异。实施周期仅供参考,具体以实际评估为准。

核心金句:

“对创业门诊,时间就是生命线。”

“2周上线 vs 6个月,抢回的不是时间,是生存空间。”

“快的不是软件,是流程的成熟。”

互动话题:

如果您的新门诊3个月内必须上线,您会选择快速部署还是长周期定制?

在系统选型中,实施周期是否是您的重要考虑因素?为什么?

您愿意为’快’支付溢价吗?快多少天值得多花多少钱?


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

那个”万能密码”用了三年:一次权限管理的觉醒

“系统出错了!”

信息科李主任刚上班,就接到药房电话。

药房馮主任在电话里嚷:”为什么我登录系统,提示’密码过期’?我昨天还能用!”

李主任心里一沉。

药房系统,用的是全院统一的”管理员账户”——用户名admin_yaofang,密码是Yaofang@2023

这个密码一年前就该过期了,但冯主任一直没改。不是他不想改,是改了之后,药房十几台电脑都要手动更新密码,很麻烦。

而且,这套密码,从2023年用到现在,从来没出过问题。

但今天,突然提示密码过期。

李主任查了一下密码策略:密码有效期是180天。Yaofang@2023是2023年10月设置的,到今天已经超过500天了。

奇怪,为什么系统突然开始强制改密码?

他打开密码策略配置——有效期还是180天,但”密码历史记录”被改成了”记住5次”。而且,”密码必须复杂性”被开启。

“有人动过密码策略。”李主任说。

他查变更日志,发现是上周安全加固时,小吴改的。

小吴来了,解释:”我发现全院所有科室的管理员密码,都是’科室名@年份’,太简单了。我就把策略调严了:必须大小写字母+数字+符号,8位以上,180天过期,不能重复使用。”

“但药房不知道啊,”李主任说,”他们没收到通知。”

“系统登录的时候会提示。”

“但提示了为什么不改?冯主任说,他点了’确定’,登录还是失败。”

小吴查了一下:”哦,新密码策略要求密码不能包含用户名。冯主任如果设成’Yaofang@2024’,就包含了’Yaofang’,不符合策略,所以设失败。”

李主任明白了:这是一个典型的”好心办坏事”——安全策略变严了,但用户不知道怎么设置合格的新密码,导致集体被锁。

1. “万能密码”的发现

但这件事,只是冰山一角。

当天下午,老周来信息科做客,李主任跟他抱怨:”我们这权限管理,一团糟。”

老周问有多乱。

李主任打开用户管理后台,给老周看:

发现一:存在”万能账户”

– 有个用户叫admin_backup,密码是Admin@123456

– 这个账户的权限是”超级管理员”,但没人知道是谁创建的

– 最后一次登录是半年前,但账户状态是”启用”

李主任说:”这个账户是V2.0时代留下的,那时开发商留的后门。V3.0迁移时忘了删。”

发现二:科室共用账户严重

– 药房:admin_yaofang(5人知道密码)

– 住院处:admin_zhuyuan(3人知道密码)

– 财务科:admin_caiwu(4人知道密码)

– 检验科:admin_jianyan(2人知道密码)

密码都是”科室名@年份”,而且五年没改过。

“为什么这么乱?”

“因为一旦改密码,所有科室电脑都要同步更新,很麻烦。而且我们系统没有单点登录,每个科室都要独立账户。”李主任说。

发现三:权限虚高

– 门诊挂号岗的账户,有”删除挂号记录”权限

– 护士站的账户,有”修改药品价格”权限

– 医嘱开立岗的账户,有”删除医嘱”权限

“这些高权限,是出厂设置,我们没细调。”

老周看着后台,摇头:”这就像一个家,钥匙分给所有邻居,而且钥匙上贴着’万能’两个字。”

2. 老周的建议:三管齐下

老周给李主任提了三个建议:

1. 清理账户,最小权限原则

– 删除所有未使用的账户(尤其是admin_backup

– 所有账户按角色分配权限:挂号员只能挂号,收费员只能收费,护士只能执行医嘱

– 每个角色,只给”必须”的权限,不给的权限,一个都不要给

2. 推广单点登录(SSO)

– 医院职工用一个账号(工号)登录所有系统

– 密码只需改一次,所有系统同步更新

– 极大减少”共用账户”现象

3. 建立账户生命周期管理

– 新员工入职,自动创建账户

– 员工调岗,自动调整权限

– 员工离职,24小时内禁用账户

– 定期(每季度)审计所有账户,清理僵尸账户

3. 实施中的”人性化”难题

但实施起来,困难重重。

第一关:清理”admin_yaofang”这类共用账户

李主任在信息科会上提出:药房今后不再使用admin_yaofang,改为每人一个独立账户。

冯主任当场反对:”我们药房十几个人,每人一个账号,那密码怎么管理?出问题谁负责?”

“你们现在共用一个密码,出了问题谁负责?”李主任反问。

“现在也没出问题啊。”

“刚才的密码过期事件,不就是问题吗?”

冯主任不说话了。

李主任提出妥协方案:

– 先为药房所有在职人员创建独立账户

– 保留admin_yaofang账户,但降权为”只读”

– 过渡期一个月,期间两种账号都可以登录,但鼓励用个人账号

– 一个月后,禁用admin_yaofang

冯主任勉强同意。

但执行时,很多人不配合——”用哪个账号不是用?为什么非要改?”

李主任只有硬着头皮,一家家科室去沟通,解释安全风险。

第二关:角色权限细化

老周带着实施团队,开始梳理所有岗位的权限。

工作量巨大:医院有五十多个岗位,每个岗位有上百个操作权限。他们要做的,是为每个岗位,设计”最小必要权限集”。

比如”挂号员”:

– ✅ 能创建门诊挂号记录

– ✅ 能查询患者历史就诊

– ✅ 能退号

– ❌ 不能修改挂号费(财务的事)

– ❌ 不能删除挂号记录(数据安全)

– ❌ 不能开医嘱(业务隔离)

但细化后,业务部门又有意见:

“我们有时候需要帮病人改个联系方式,为什么不能’修改患者信息’?”

“我们偶尔要退号,为什么’删除挂号记录’不行?”

老周的解释是:权限分配,不是按”当前需求”,而是按”职责边界”

如果挂号员需要频繁改患者信息,那应该增加一个”患者信息维护岗”,而不是给挂号员这个权限。否则,每个人都是全能,出了事谁的责任?

但医院觉得这样太”死板”,影响效率。

老周让步:增设一个”高级挂号员”角色,权限比普通挂号员多几条(如修改患者联系方式),申请这个角色需要科室主任批准。

4. SSO上线后,各部门”不习惯了”

三个月后,单点登录系统上线。

所有科室,终于只有一个账号、一个密码。

理论上,密码安全度提高了——统一密码策略要求:12位,大小写+数字+符号,90天过期,不能和历史密码重复。

但实施后,负面反馈来了:

“密码太复杂了,记不住!”

“三个月就过期,太频繁了!”

“我手机不能记密码,每次都要问同事!”

冯主任更是直接找到李主任:”药房现在有两个人同时操作一台电脑,一个人输入密码登录,另一个人就用同一个账号继续操作。这跟以前共用账户有什么区别?”

李主任哑口无言。

这是”安全”与”便利”的永恒矛盾。

5. 老周的平衡之道

老周听完李主任的抱怨,说:”我们是不是把目标定错了?”

“什么目标?”

“我们以为目标是’安全’,其实目标应该是‘可控的安全’。”

“什么意思?”

“绝对的安全,会带来绝对的不便。比如每个操作都要二次验证,那业务就不用做了。安全措施,必须考虑用户的接受度。”

老周调整了策略:

1. 密码策略适度放松

– 长度从12位改为10位

– 复杂度要求保留,但增加”密码短语”支持(允许用句子,如”IloveHIS2024!”)

– 过期时间从90天延长到180天

2. 增加”二次认证”选择性

– 对于普通操作,只用密码

– 对于高危操作(删除、修改价格、批量导出),强制手机验证码

– 这样,日常使用不受影响,高危操作有保护

3. 推广”扫码登录”

– 每个科室电脑,贴一个二维码

– 职工用自己的手机扫码,免密登录

– 手机有生物识别(指纹/面容),安全和便利兼顾

4. 定期安全培训

– 教职工识别钓鱼邮件

– 教育密码管理常识(不要写在便签上)

– 通报安全事件案例

6. 一年后的变化

一年后,李主任再次盘点权限管理:

– 共用账户:从原来的12个,减少到2个(特殊场景,已申请保留)

– 个人账户:全院95%职工有独立账户

– 僵尸账户:清理了37个(离职未禁用)

– 权限事故:0次

– 密码相关求助电话:从每月20+次,降到2-3次

冯主任现在也适应了:”用扫码登录,确实方便。而且密码一年才改一次,能接受。”

老周来检查时,李主任说:”我现在觉得,权限管理不是’技术活’,是’管理学活’。你不仅要懂技术,还要懂人心。”

“怎么讲?”

“技术方案再完美,如果用户不接受,就是废纸。你不能指望医院人员都有IT专业素养。你必须把安全措施,做得像呼吸一样自然——用户甚至感觉不到’我在遵守安全规则’,这才是成功的。”

7. “最小权限”不是”最小信任”

李主任后来在一次省内HIS安全交流会上,分享了他的心得:

“很多领导觉得,权限管理是’防着自己人’。其实不是。

‘明确责任边界’

当每个人只有自己的权限,干了什么操作都能追溯到人,出了问题,就知道是谁的责任。

反过来,如果大家用的是同一个账户,出了事,互相甩锅,查不清。

所以,最小权限原则,表面上是限制,实际上是保护——保护了守规矩的人,也约束了不守规矩的人。

而且,给了每个人独立的账户,是对他们的尊重——’你是独立的个体,有你的职责和权限’。

共用账户,意味着’你只是系统的一个使用者,没有身份’。

这是两回事。”

互动话题

你们单位的账号密码管理是什么情况?有没有”万能密码”?

> 基于真实医院场景改编,人物均为化名


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

真停电了:那次”演练成真”的72小时与灾备系统的终极考验

凌晨两点,XX医院。

主数据中心机房,突然停电。

不是演练,是真的——市电故障,加上UPS电池老化(三年没检测),未能及时切换到电池供电。

整个医院HIS系统,在零点17分,瞬间离线。

门诊挂号停摆,住院系统失联,药房发不了药,检验科做不了标本,急诊科只能手工记录。

值班工程师小吴发现异常,两分钟后,给老周打电话。

老周从床上跳起来,一边穿衣服一边想:四个月前的那次灾备演练,终于派上用场了

那是去年12月的灾备演练,当时切换失败,备用数据中心检测不到,手动切换功能也没有。那次演练,暴露了三个问题。

这四个月,他们一直在整改。

而今天,真停电了。

1. 第一反应:不是”抢修”,是”切换”

老周在电话里问小吴:”主数据中心完全断电了吗?”

“是的,所有设备都断电了。UPS也耗光了。”

“备用数据中心呢?”

“还没检测到,我们在手动查。”

“用应急手动切换U盾!”老周吼道。

他记得四个月前那次教训——不能依赖自动切换。万一自动切换失败,必须有人工手段。

小吴跑向机房,从保险柜里取出那个黑色的U盾,插入备用数据中心的控制台。

手动切换流程,在预案里写得清清楚楚:

1. 登录备用数据中心管理后台

2. 点击”紧急接管”按钮

3. 确认切换(会强制把负载均衡指向备用数据中心)

4. 验证业务状态

小吴的手有点抖。他虽然是工程师,但这是第一次”实战切换”——不是演练,是真停电了。

点击”紧急接管”。

系统提示:”接管成功,预计30秒内生效。”

他盯着负载均衡的实时状态:

– 主数据中心IP:离线

– 备用数据中心IP:生效(绿色)

30秒后,护士站的小张刷新页面,看到系统回来了。

“能用了!”小张喊。

2. 切换后,数据一致吗?——那个0.02%的差异

老周赶到医院时,已经是凌晨三点。

信息科李主任在机房外走来走去,神色焦虑。

“周总,数据有没有丢?我们最怕这个。”

老周没直接回答,而是问:”切换后,有没有医生报错?”

“暂时没听说,但这才切换了不到一小时…”

老周打开备用数据中心的监控面板。

灾备系统的设计,是主数据中心实时同步数据到备用数据中心(异步 replication,延迟1-3秒)。理论上,数据应该是”零丢失”——主数据中心断电前最后的事务,应该已经同步到备用。

但他查数据对比:用脚本比对主库最后一次备份(昨晚00:00)和备用库当前数据,差异率是0.02%。

那0.02%是什么?

是断电前30秒内产生的数据——因为同步延迟,这部分还在主数据中心的内存里,没来得及写磁盘,就断电了。

切换后,这部分数据永久丢失了。

“有多少数据?”

“正在估算。挂号、医嘱、收费…大概几百条。”

李主任脸色变了:”几百条?”

“主要是挂号记录。”老周说,”如果病人在断电前刚挂上号,但还没缴费,数据丢失,他们会以为挂上了,但实际上没挂上。这会引发纠纷。”

李主任:”那怎么办?”

“我们有个预案:断电恢复后,主数据中心重启,会尝试从备用库同步回主库。如果同步成功,数据能补回一部分。但如果是事务中途断电,可能补不回来。”

老周决定:不等了,现在就去主数据中心,尝试恢复

3. 主数据中心恢复:希望与绝望交织

早上五点半,市电恢复。

主数据中心可以通电了。

老周和李主任,带着运维团队,在主数据中心机房。

设备一台台启动:

– 网络设备

– 存储设备

– 数据库服务器

七点,数据库启动成功。

启动后的第一件事:尝试从备用数据中心,同步回主数据中心的数据。

同步开始。

但同步报错:主库的某些数据,已经被断电前的事务部分修改过,和备用库的版本冲突。

数据库自动冲突解决机制,选择了”以主库为准”——意味着主库的数据会覆盖备用库。

问题是:主库断电前的数据,本身就是不完整的(内存中的数据没持久化)。

这可能导致:备用库里有的数据,主库里因为断电前部分事务已经提交,反而”多”了一些数据;或者反过来,”少”了一些数据。

手动检查发现:

– 有大约200条记录,主库有、备用库没有(备用库没收到)

– 有大约150条记录,备用库有、主库没有(主库内存丢失)

“这怎么搞?”李主任快要崩溃了。

老周说:”我们只能手工对比,确保一致性。”

他们制定了手动对账流程:

1. 导出主库的今日所有业务记录(时间范围:断电前24小时)

2. 导出备用库的同时间记录

3. 对比关键业务:挂号、住院登记、医嘱、收费

4. 发现差异,人工核查(查看业务日志、纸质记录)

5. 对无法确定的差异,标记为”待调查”,业务上补偿(比如给病人重新挂号)

这个流程,花了整整一天,八个人同时核对。

到晚上八点,对账完成:

– 挂号差异:37条,已人工补录

– 住院登记差异:5条,已补录

– 医嘱差异:0条(医嘱还没有产生,或已同步)

– 收费差异:12条,已财务手工调账

“业务基本恢复。”老周说,”但今天的数据,还有一部分在备用库,没同步回主库。明天早上还要做增量同步。”

李主任松了口气。

4. 事故分析:暴露了多少问题?

事故后第三天,老周主持了深度复盘。

参会者:软佳团队、信息科全体、医院领导。

发现的问题清单 (根本原因分析,5 Whys):

问题1:UPS电池老化,没有定期检测

– 为什么?——电池检测制度是”每半年一次”,但去年只做了一次

– 为什么没做?——没人跟踪执行

– 为什么没人跟踪?——运维清单不完整

问题2:主数据中心断电后,没有及时通知备用数据中心”已失去主中心”

– 备用数据中心靠心跳检测主中心状态,心跳没断(网络还通着,因为网络设备有UPS),所以备用中心不知道主中心已经断电

– 切换依赖”主中心故障+心跳丢失”双条件,但这次是主中心断电但网络设备还活着(有UPS),心跳没丢

手动切换救了命

问题3:数据同步延迟导致丢失

– 同步是异步的,延迟1-3秒

– 这1-3秒的数据,断电就丢了

– 要达到”零丢失”,必须用同步复制(但会影响性能,降低吞吐量30%)

问题4:主中心恢复后,数据冲突解决机制不合理

– 默认”以主库为准”,但主库断电是不正常状态

– 应该优先以备用库为准,因为备用是正常状态

– 应该在切换前记录”最后一致时间戳”,恢复时根据时间戳判断

问题5:没有”业务快速恢复”预案

– 数据不一致时,业务不知道怎么办

– 应该像银行一样,有”业务补偿流程”:数据不一致时,如何快速让病人看上病、用上药

5. 系统性整改:从”能切换”到”切换后业务无感”

老周和信息科一起,制定了整改计划,投入80万。

1. 基础设施升级(预算40万)

– UPS电池全部更换,半年检测制度(写进SOP)

– 主数据中心增加柴油发电机(支持8小时)

– 备用数据中心增加独立市电接入(双路市电)

– 增加环境监控(温湿度、漏水、门禁)

2. 灾备切换机制优化(预算15万)

– 心跳检测增加”电力状态”监控——如果主数据中心电力丢失,不管网络通不通,立即切换

– 增加”一键切换”按钮,贴在所有关键岗位墙上(物理按钮,防误操作)

– 每季度演练一次手动切换(真断电,不只是模拟)

3. 数据同步优化(预算10万)

– 评估”同步复制”可行性(可能性能下降20%,但保证零丢失)——决定保留异步,但优化

– 增加”断电前最后60秒日志缓存”,主中心断电前,把最后的事务先写入共享存储(SAN),备用中心可以先读这个

– 增加”切换点标记”,每次切换记录时间点,便于恢复

4. 主备恢复流程标准化(预算5万)

– 主中心恢复后,数据同步策略改为”以备用库为准”

– 对账流程自动化(每天凌晨自动比对核心业务数据)

– 差异处理流程文档化,包括业务补偿标准

5. 业务连续性保障(预算10万)

– 最坏情况预案:数据完全无法恢复,如何手工恢复业务?

– 方案:启用”应急纸质表单”,所有业务先手工登记,系统恢复后补录

– 这个方案要提前告知临床科室,让他们有心理准备

– 对医护人员进行”应急模式”培训

6. 一个月后,再次演练:从70分到95分

整改完成后,老周组织了”全真演练”。

这次,他们模拟的场景是:主数据中心断电且断网(比上次更难)。

发现的新问题:

– 备用数据中心启动时间比预期长(15分钟 vs 目标5分钟)——因为存储阵列自检慢

– 业务验证脚本跑不通(有些功能依赖主数据中心的环境变量,没考虑到)

– 切换后,财务科发现”当日收入统计”不准(因为数据延迟,部分收入不在统计窗口内)

继续改。

第二次演练,完美。

老周给信息科的评分:从70分提升到95分。

李主任说:”现在我们不怕停电了,就怕不演练。”

7. 杨院长的话:选择合作伙伴,不是选价格,是选关键时刻靠得住

事故后一个月,杨院长在一次全院大会上说:

“信息系统,是我们医院的神经系统。这个神经系统,不能只有一个大脑,要有备份。这次停电,我们见识了备份的价值。

但更重要的是,我们见识了我们的信息科和软佳团队的专业和负责。凌晨三点,周总带着人赶到医院;四十八小时,没睡过一个整觉;对账、补数据、恢复业务…

选择合作伙伴,不是选价格最便宜的,是选关键时刻靠得住的。”

周总坐在台下,没说话,但记住了这句话。

8. 灾备的”本质”:不是”有”,是”能用”

老周后来在多个场合分享这次经历。

他的核心观点:

灾备系统,不是”买一个放在那里”就行,而是要让它”用过”。

只有演练过,才知道切换按钮在哪里;只有演练过,才知道数据对账流程有多复杂;只有演练过,才知道业务部门需要什么预案。

“很多单位,灾备系统建好了,五年没启用过,美其名曰’系统稳定,没机会用’。但真出事的时候,发现这也不会、那也不熟,灾备系统等于没有。”

灾备的价值,不在于备用,在于能用。

软佳现在的做法:

– 每季度一次真刀真枪的演练(部分业务切换到备用中心,半小时后再切回)

– 每年一次全站演练(主中心完全断电)

– 每次演练后写报告,改进流程

客户一开始嫌麻烦,现在主动要求演练——因为他们 seeing 了价值。

9. 灾备的”成本”与”风险”权衡

有客户问老周:”灾备这么贵(软佳的灾备方案加价30%),值吗?”

老周反问:”你们醫院一年营业额多少?”

“大概10亿。”

“如果系统瘫痪三天,损失多少?”

客户算了算:门诊停三天,损失至少3000万。还不算声誉损失、病人流失、卫健委处罚。

“灾备花300万,保3000万,值吗?”

客户不说话了。

“而且,灾备不是’一次投入’,是持续投入——每年演练、每年升级、每年测试。”

“但比起系统瘫痪的代价,还是划算的。”

10. 给所有技术负责人的建议:不要等出事才后悔

老周最后的总结:

① 灾备不是选择题,是必答题

– 只要系统在生产环境运行,就必须有灾备

– 特别是医疗、金融、政务系统,不能承受数据丢失

② 灾备的”可用性”比”存在”更重要

– 有灾备但不演练 = 没有

– 定期演练,确保切换按钮有人会按、流程有人懂

③ 灾备要有”业务视角”

– 不是”数据能恢复”就行,是”业务能继续”

– 要有业务补偿方案(手工登记、应急表单)

– 要让临床科室参与演练

④ 灾备的”成本”是投资,不是开销

– 一次事故的损失,可能超过十年灾备投入

– 保险思维:小额确定性支出,对冲大额不确定性损失

互动话题

你的系统有灾备吗?演练过吗?实战用过吗?

> 基于真实医院场景改编,人物均为化名


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。

除夕夜,我们升级了XX医院的HIS系统

“今年除夕,你们必须完成HIS系统从V3.0到V4.0的升级。”

信息科李主任发来这个消息时,老周正在看春节值班表。窗外飘着雪花,办公室里只剩下他一个人。明天就是除夕,大部分同事已经提前请假回家过年了。

老周是昆明软佳的运维负责人,负责XX医院的HIS系统运维。V4.0版本开发了半年,投入了15个开发人员,新功能很多:病历模板云端共享、手术排程智能优化、药品库存预警、移动查房、患者画像、智能分诊…但最关键的,是架构升级——从单体应用变成微服务,理论上更稳定,扩展性更好。

但老周知道,这套系统已经运行了五年,数据量庞大,业务逻辑复杂。数据库里存着三百万患者的完整病历,七年的门诊记录,五年的住院档案,总数据量超过2TB。XX医院是省内最大的三甲医院,日均门诊量一万五千人次,住院病人四千多人,高峰时段并发用户超过2000。任何一点差错,都可能造成医疗事故,甚至引发医疗纠纷,导致医院声誉受损。

“为什么非要除夕?”老周回问。

“因为那天下午后门诊就停了,初二才开诊。”李主任说,”我们有三天窗口期。而且,除夕夜全院最安静,没手术,没急诊高峰,病人少,业务量最低。”

老周沉默了。

说的有道理,但他更知道:除夕夜,工程师们都在家过年,谁愿意加班? 而且,越是”安静”的时候,越容易麻痹大意。平时医院人来人往,任何异常都能及时发现;除夕夜如果出问题,可能到初二上班才暴露,那会已经酿成事故,影响初三的学术会议——院长要在会议上展示新系统,给医院”长脸”。

“能不能预约年初三?”老周问。

“不行,初三有学术会议,院领导和外宾都在。系统要展示新功能,我们要在全同行面前亮相。”

老周明白了:这不是单纯的技术问题,是政治任务,是面子工程。院长要在学术会议上展示HIS系统升级成果,给医院加分,给信息科长脸。

2. 升级前的”恐吓式”测试

老周带着团队,先做了一件事:模拟灾难

他们在测试环境,把V4.0版本部署上去,然后人为制造各种故障场景,看系统能否扛住。

测试环境的数据量是生产环境的10%(200GB),但架构完全一致。

场景一:数据库突然断电

模拟数据库服务器宕机,看应用能否优雅降级。结果:所有功能全部不可用,微服务全部报错。因为所有服务都依赖数据库,而数据库挂了后,服务注册中心(Nacos)也挂了(它也依赖数据库),微服务之间互相找不到,整个系统雪崩。

场景二:网络突然中断

拔掉其中一台应用服务器的网线。结果:那台服务器上的所有请求失败,但没有自动迁移到其他服务器。负载均衡器虽然检测到服务器不可用,但需要30秒才能剔除,这期间用户请求都会失败,体验极差。

场景三:某个微服务突然崩溃

手动kill掉”医嘱管理”服务。结果:所有依赖这个服务的上游功能(如病历书写、护理记录、检查申请)全部报错。熔断器(Hystrix)配置了,但阈值设得太高——需要100次错误才触发,而在这之前,上游已经堆积了大量错误,线程池被打满。

场景四:磁盘突然写满

模拟日志磁盘爆满。结果:系统开始抛出大量IOException,但错误没有统一处理,用户看到的是”系统异常”,而不是”服务器繁忙,请稍后重试”。没有降级策略。

场景五:GC停顿

模拟Full GC,暂停30秒。结果:所有请求超时,用户感觉”卡住了”。

老周的头大了。

这些都不是V3.0时代会遇到的问题——V3.0是单体应用,数据库不挂,系统就不挂。现在V4.0拆成十几个微服务,一个环节出问题,可能影响一片功能。微服务的复杂性,远超预期

3. 我们制定了三套”保底方案”

老周给李主任打了个电话:”直接升级风险太大。我建议分三步走,每一步都有回退方案,确保业务绝对不中断。”

第一步:增量上线,不是全量切换

– 先在门诊药房试点,只对药房人员开放新系统,其他科室继续用旧系统

– 试点稳定三天后,再扩大范围到门诊收费、住院收费

– 最后全员上线

“这样可以控制风险范围,即使药房出问题,也只是局部影响,不影响整个医院。”

第二步:数据双写,随时能回退

– 春节期间,新旧系统并行运行

– 所有新业务数据,同时写入新旧两个数据库

– 如果新系统出问题,一秒回退到旧系统,数据不丢

“数据一致性怎么保证?”李主任问。

“我们在应用层做双写,用一个事务同时写两个库。如果其中一个写失败,整个事务回滚。而且我们会做定时对账(每半小时一次),发现不一致立即修复。双写最多保持一周,等新系统稳定了,就切换单写。”

第三步:除夕不升级,只做”预演”

– 除夕当天,我们不碰生产环境

– 在测试环境,完整演练一遍升级流程和回滚流程

– 如果演练顺利,年初二晚上做真实升级

“为什么不在除夕升级?”

“因为除夕全员都在家,万一出事,人手不足。年初二大家已经收假,可以应对突发情况。”

李主任沉默了很久,思考这个方案的利弊。

“如果年初二升级失败,初三学术会议展示什么?”

“展示我们之前双写的旧系统数据。新系统没上线,但升级计划已经在执行中,可以汇报进度,说明我们在扎实推进。”老周说。

李主任终于同意了:”行,就按你说的来。但年初二必须成功,不然院长会发飙,我们大家都不好过。”

4. 那个熬了三天的夜晚

年初二晚上八点,升级正式开始。

老周团队八个人,加上信息科三个人,全部在现场。机房温度有点低,但每个人都精神高度紧张,手里拿着对讲机,随时沟通。

升级步骤详细到分钟,印在每个人的手里:

1. 数据库备份(预计30分钟):全量备份 + 校验和比对

2. 部署V4.0新服务(预计60分钟):13个微服务逐个启动、初始化、健康检查

3. 数据迁移(历史数据从旧表结构迁移到新表结构,预计120分钟):涉及2176张表,2.3TB数据

4. 配置切换(DNS、负载均衡切到新服务,预计15分钟)

5. 功能验证(各科室核心功能验证,预计60分钟):挂号、收费、住院登记、医嘱、药房…

计划总时长:285分钟,也就是四个半小时。

看起来时间很充裕。

但老周知道,计划赶不上变化。他们准备了”升级失败回滚预案”,如果任何一步出问题,60分钟内必须回滚,否则数据不一致,回滚会更麻烦。回滚本身也需要时间。

第一步:数据库备份。顺利。

虽然备份速度比预期慢10%(用了45分钟),因为数据量比预想大20%,但还是在计划内完成,并校验了checksum,无错误。

第二步:部署V4.0新服务。顺利但有波折。

微服务启动时,有2个服务启动失败:配置管理服务(config-server)因为端口6380被占用(旧系统有个监控进程),注册中心(nacos)因为数据库连接字符串写错了(少了个分号)。修改后重试,总共花了75分钟,比计划多15分钟。

第三步:数据迁移——这是最关键的一步,也是风险最大的。

历史数据有七年的门诊数据、五年的住院数据, Tablespace 超过 2TB。迁移工具data-migrator是公司自己开发的Java程序,还没在这么大的数据集上验证过。

“开始迁移。”

进度条:0.1%…0.2%…

时间一分一秒过去,大家都盯着屏幕,不敢说话。

一百分钟后,进度条卡在37%。

“停一下。”老周心里一紧。

运维工程师小王脸色很难看:”迁移速度变慢了,从每分钟1%降到每分钟0.1%。可能遇到数据热点,或者某张表有锁,或者磁盘IO达到瓶颈。”

“什么表?”

“医嘱表,数据量最大的表,四亿多条记录,占总数据量的60%。现在卡在这一步,因为医嘱表有外键约束,其他表都在等它完成。”

老周拳头捏紧了,指甲嵌进肉里。

37%的数据已经迁过去了,如果中断,回滚要删除这些数据,很麻烦;如果不回滚,继续迁,但速度这么慢(0.1%/分钟,意味着还需要6天),到天亮也迁不完,初二肯定上不了线。

“能不能跳过医嘱表,先迁其他表?”

“不行,医嘱表被其他几十个表外键约束。如果医嘱表没迁移成功,其他表迁了也联不起来,数据是断的,对账都对不上。”

会议室里,气氛凝重。已经凌晨一点,窗外偶尔传来鞭炮声——有人在提前过年。

已经是凌晨一点。

老周看向大家,眼神坚定:”还有什么想法?不论多大胆,说出来。”

5. 最后的办法:物理复制

小王,这个26岁的年轻工程师,说了一个大胆的想法:”我们不做逻辑迁移了,用物理复制。”

“什么意思?”

“我们不通过工具逐条迁移数据,而是直接把旧数据库的 MDF/LDF 文件拷贝到新数据库服务器,在新库上直接做 schema 转换。”

这相当于把旧数据库的”硬盘”直接物理搬到新数据库,然后在新数据库上修改表结构,适应V4.0的 schema。

因为只是修改表结构(加字段、改索引),不移动数据行,速度会快很多——复制2.3TB文件,通过内网万兆光纤,只需要30分钟;schema转换再花1小时。总共2小时搞定。

但风险是:

– 物理复制过程中,如果旧库还有数据写入(虽然升级期间已经通知停业务,但万一有漏网的终端还在连接),数据会不一致。

– 新旧数据库的字符集、排序规则必须完全一致,否则会乱码。

– 复制后需要重新统计信息,否则查询性能会下降,相当于”数据迁移了,但查询更慢了”。

“赌一把。”老周说。现在没有其他选择,时间不等人。

他们先命令所有终端停止连接数据库,确保业务完全停止——这一点至关重要,确保了物理复制的ACID。

然后,停止旧数据库服务,用Robocopy工具拷贝数据文件,保留所有权限和属性。

拷贝花了20分钟(2.3TB通过内网万兆,速度比预想快)。

接着,在新数据库上运行 schema 转换脚本,把旧表结构改造成新表结构。这个过程要极其小心:不能丢失数据,要处理字段类型变化(如VARCHAR长度变化)、新增字段默认值、索引重建…

30分钟搞定。

接着,启动新数据库,验证数据一致性。

比对脚本跑了一个小时,结果是:一致性 99.99%,有少量数据不一致(约0.01%,约230万条记录中的23条),但都是升级期间产生的”残留”数据(停业务后最后几分钟的操作,有的写一半,有的锁未释放),我们可以从binlog里补回来。

老周看了看表:凌晨三点四十分。

“继续!”他的声音沙哑,但坚定。

6. 天亮前的最后一道坎

数据迁移完成,已经是早上六点,天蒙蒙亮。

下面就是配置切换, cutover 到新系统。

但就在这时,医务科刘主任打来电话,语气焦急:”有几个科室反映,他们电脑登录新系统特别慢,要半分多钟。医生在急着开医嘱,病人等在排队,护士站骂人了。”

老周心里一沉。

“是不是网络问题?”

“不是网络,是新系统启动后,有些服务初始化慢。特别是’患者基本信息查询’这个服务, cold start 要一分钟。很多医生在开机后第一次查询,要等很久,他们没耐心。”

老周突然想到:”我们不是有双写吗?让这些科室的人先用旧系统,我们调优新系统。”

但问题是,有些功能V4.0才有,旧系统用不了,医生会抱怨新功能不能用。

“能不能手动调整那些慢服务的超时时间,先让他们能登录?”

小王试了一下,调整了JVM堆内存(从2G加到4G)和线程池参数(从50加到100),登录时间从50秒降到了15秒。

“先这样,赶不上初一,初二能上线就不错了。”老周安慰自己,但心里知道,用户体验不能一直这样凑合。

7. 大年初二,系统上线了

上午十点,老周带着运维团队,在医院信息科”坐镇”。

李主任也在,脸色紧张。他身后站着医务科、护理部、财务科的人,都在等消息。

各科室开始有人陆续上班,系统正式开放使用。

第一个问题是在十点二十分钟出现的:收费处小张打不开收费界面,提示”服务不可用”。

运维立即排查:是”收费服务”这个微服务挂了,因为内存溢出(OOM),JVM heap 满了。

分析堆 dump,发现是某个收费记录的数据量异常大(超过10万条明细),导致内存泄漏。

临时方案:重启服务,并设置单笔交易明细上限为1000条,超过则提示”数据过多,请分批处理”。

十一点,药房反映,药品库存数量不对,有些药显示有库存,实际药架上没药。

查日志:数据迁移时,有一批药房的库存流水没迁全——因为那条记录的状态字段是NULL,迁移脚本跳过了NULL值。

紧急从旧库补数据,手动执行SQL,花了20分钟。

十二点,住院处反映,有病人出院结算时,总金额多了一块二毛钱。

查对账系统:有一笔三毛钱的二维码支付手续费,V3.0没算进总金额,V4.0算了(新功能自动计算)。

热修复:在结算时,如果金额与旧系统差异<1元,自动以旧系统为准。

下午三点,所有问题基本解决,系统运行平稳。

老周给李主任发了消息:”系统基本稳定,可以对外宣称升级完成了。”

李主任回复:”好。但学术会议还有半小时开始,院长要展示新功能,你们那边准备好了吗?”

老周深吸一口气,在微信群里发了消息:”所有工程师,保持手机畅通,随时待命。系统暂时稳定,但别掉以轻心。”

8. 为什么升级总是这么惊险?

升级完成后第三天,老周写了长篇复盘报告,发给公司管理层和XX医院信息科。

他发现,这次升级之所以这么惊险,不是因为技术难度大,而是因为:

1. 想一次性完成:没有采用渐进式上线,而是”一夜切换”。如果分阶段(先药房、再收费、后住院),问题可以早发现早解决,不会最后搞”大杂烩”。

2. 数据迁移工具没经过大数据验证:37%的迁移速度就已经暴露出性能问题,说明工具在TB级数据上表现不佳,应该用更成熟的方案(如物理复制)。

3. 冷启动问题没预判到:新服务启动慢,影响用户体验,特别是首次查询。应该有预热机制(提前启动,加载缓存)。

4. 测试环境数据量不到生产环境十分之一:所以没遇到真实场景的性能瓶颈和脏数据问题。测试应该用生产数据的脱敏副本。

5. 应急预案不够细:虽然准备了回滚方案,但执行时发现很多细节没考虑到(如回滚后的数据一致性验证)。

改进措施(老周在报告中详细列出):

1. 未来升级,必须先灰度发布,小范围验证(如先上10%流量,观察24小时)

2. 数据迁移工具,必须在与生产环境同量级的数据集上测试(至少1TB),并准备物理复制作为备选方案

3. 服务预热机制:在切换前2小时,提前启动新服务,完成JIT编译和缓存预热

4. 升级期间,必须有物理备份,随时能回滚到上一秒状态

5. 建立”升级检查清单”,逐项打勾,不跳过任何步骤

6. 每个微服务都要有熔断、降级、超时配置,不能依赖”默认值”

7. 升级窗口期要预留buffer,计划6小时的任务,给10小时

9. 事后,李主任说了一句话

一周后,李主任请老周吃饭,地点在医院食堂的小包间,没叫外人。

“这次升级,虽然出了不少问题,但总体是成功的。”李主任说,”最重要的是,我们没有因为升级导致病人看病受阻。初三学术会议,院长展示了新系统,效果很好。院长说:’你们的信息科,能打硬仗。'”

老周松了口气。

“但我有个问题,”李主任又说,露出苦笑,”下次升级,能不能别选春节?我们科的人也要过年,连续三天熬夜,身体受不了。”

老周笑了:”下次,我建议选五一或十一,窗口期更长,我们也有更多时间做灰度验证,不用赶工期。”

李主任点头:”这个提议,下次班子会我会提。顺便,你们那套’双写+对账’方案,效果不错,数据零丢失。我们想把它固化下来,以后日常也跑,作为实时备份。”

“可以,我们会写成功能模块,纳入标准产品。”

10. 稳定压倒一切

老周后来在部门内部分享会上,反复强调,把这起事件作为反面教材成长案例

“系统升级最大的风险,不是技术问题,是时间压力

时间一紧,人就容易慌,容易漏步骤,容易不走检查清单。

但系统升级,最怕的就是’赶’。

宁可慢一点,稳一点,分阶段上,也不要一次性能完成但风险不可控。

稳定压倒一切。业务连续性,比面子、比会议、比展示,都重要得多。

这次除夕升级,教训是深刻的。我们学到了:

不要相信’理论上’,一定要测试验证,尤其是灾难恢复测试

不要跳过检查清单,每一步都要有记录、有责任人、有回滚方案

要有回滚预案,而且回滚方案本身也要测试过

时间缓冲要给足,计划再乘以1.5的系数

升级不是IT部门的事,是全院的事,业务部门要参与演练

工程是严谨的科学,不是冲刺。冲刺得来的成功,往往是隐患的开始。”

互动话题

你经历过最惊险的一次系统升级是什么情况?有什么经验教训?

> 基于真实医院场景改编,人物均为化名


立即免费试用门诊系统https://app.kmhis.com/
International Versionhttps://app.kmhis.com/multi/
了解软佳门诊管理系统详情https://www.kmhis.com/outpatient-management-system.html


扫码预约

手机扫码试用患者预约。请勿输入个人真实信息(点击图片可查看原图)

支持8种语言:简体中文、繁体中文、香港中文、English、藏文、泰文、老挝语、越南语


说真的。这类问题我见过太多了。每次看到医院同事为选型头疼。我就想,要是早点有人把这些经验分享出来就好了。毕竟。选择不对。后面全是麻烦。选择对了。省心省力。还能提升整个机构的运行效率。希望这篇能帮到正在纠结的你。

你如果有具体需求。也可以去 www.kmhis.com 看看。那里有更详细的技术方案和案例。