医疗大数据与统计数据的差异分析及应用思考

时间：

　　摘要本文在上海市搭建“健康信息网”平台，汇集形成公立医疗机构诊疗信息的大数据中心的背景下，结合上海市大数据分析实践，总结分析医疗大数据与传统卫生统计数据之间差异及其产生的原因，发现两类数据的收集目标、方法、管控体系均存在本质差异，这必然导致所收集的数据汇总量的偏差;并在此基础上，提出要正视差异，并且在了解两类数据自身优势的基础上，将两类数据有机融合、互补应用，这样才能更好地为医疗体制改革提供决策支撑。

　　关键词医疗大数据卫生统计差异分析

　　随着“大数据时代”的到来，医疗大数据作为其中重要的组成部分，越来越受到各级各类部门和机构的重视;而随着医疗大数据收集、存储和利用工作的深入开展，关于此类数据与传统卫生统计调查所收集数据之间关系等类似问题，也越来越频繁地被提及。本文是从上海市实践经验角度分析总结两类数据的关系，希望可以为相关工作的开展提供参考。

　　1问题提出

　　“建立实用共享的医药卫生信息系统”是中共中央、国务院《关于深化医药卫生体制改革的意见》中重要内容之一，区域卫生信息化建设被认为是未来医疗行业的发展方向[1]。上海市于2011年4月12日正式启动“基于居民电子健康档案的卫生信息化工程(以下简称健康信息网工程)”，该工程是上海市政府在卫生信息化领域的重大基础性设施建设，也是实现上海所有公立医疗卫生机构互联互通、共享整合的基础[2]。

　　目前，已基本建立覆盖全市各级各类公立医疗卫生机构的健康信息网，建成市区两级数据交换共享平台，实现了所有区县的38家三级医院、近100家二级医疗机构、240家社区卫生服务中心以及各级各类公共卫生机构和10000余个医生工作站的互联互通。该网连通的信息系统包括医疗服务相关的医院HIS、CIS和LIS以及公共卫生服务相关系统等。目前上海市级数据中心已集中汇总了200多亿条的诊疗数据，并且这一数字以每天增加1600多万条的速度急速增长着，由此，上海市的卫生数据规模之大可见一斑，接下来上海计划对这一庞大的数据进行深入分析与利用。

　　相关知识推荐：医生职称晋升需要发几篇论文

　　在分析利用之初，上海首先将目前数据中心的200多亿条记录按时间等维度进行初步的分类汇总统计，将汇总的常规指标值，如门急诊总人次数、门诊次均费用等指标，将其与内涵一致的卫生统计指标结果进行比对。从理论上讲，两类指标数值应该趋于一致，而实践证明，两类指标数值并不是非常吻合，有的甚至差异较大。因此针对这类差异的产生原因以及后续如何更好地综合利用两类数据等内容均有待深入研究。

　　2两类数据差异原因分析

　　在发现两类数据的差异之后，需要首先分析差异产生的原因，有些差异是合理的，可以被解释的;有些差异则会反映出数据收集过程中存在的问题。通过分析，发现差异产生原因主要为以下几方面：

　　2.1采集的初衷不同

　　“健康信息网工程”的建设目标是以市民健康管理为核心，建设上海健康信息网，实现人人享有电子健康档案，使市民、家庭医生、社区卫生中心、医院和公共卫生机构有效共享利用健康信息。因此目前市级平台汇总所有公立医疗机构的诊疗信息，其核心目标是共享，因此系统架构和变量内容设计均围绕这一初衷展开。而随着诊疗记录收集的全覆盖以及对于数据内涵理解的深化，延伸出支撑卫生决策的功能，如可以为基本用药的使用分析、医疗服务体系监管以及医院和社区卫生服务开展绩效考核等工作提供信息支撑。

　　而我国实施的卫生统计调查制度则历史悠久，它的初衷是为了解全国卫生资源配置与医疗服务利用、效率和质量以及卫生保健等情况，为监测与评价医改进展和效果、加强医疗服务监管提供参考，为有效组织突发公共卫生事件医疗救治提供基础信息，从而指导卫生保健政策及具体措施的制定[3]。

　　两类数据从采集的初衷就存在本质差异，“健康网”平台更关注如何从生产系统中采集详细的个案信息，为后续更好地共享奠定基础。而卫生统计调查制度的目标则决定了其主要以收集汇总类指标为主。由此可见，数据采集初衷的本质差异，导致了两类数据维度和颗粒度等方面的差异，最终也必然导致汇总类指标的差异。

　　2.2采集方法不同

　　“健康网”平台是通过建立市区两级数据交换共享平台，连通医疗服务相关的医院HIS、CIS和LIS以及公共卫生服务等相关系统，通过标准的数据接口，直接从机构的生产性系统进行数据的实时采集的。而卫生统计调查制度则是通过填写统计调查表，逐级上报的形式进行数据采集的。虽然随着卫生信息化的推进，卫生统计已经从人工报表演变成了网络平台直报等模式，但其大部分指标仍然是最基层的工作人员汇总操作报送的过程。由此可见两类数据收集方式有本质的差异。

　　“健康网”平台直接与医院HIS等系统对接，实时上传汇总该医院的当天的诊疗数据，可以排除人工操作更改的可能，保证了数据的真实性，但同时也可能在系统对接过程中出现漏传、重复上传等现象。因此，两类数据收集模式上的根本性差异，必然导致其数据数量上的出入。

　　2.3日常管控不同

　　“健康信息网工程”是上海市重大基础性设施建设项目之一，建设过程一直遵循项目管理的路径，更为注重系统框架搭建和数据互联互通等目标的实现，因此相关配套管理文件并不完备，随着项目的深化推进，对于数据采集时效、数据质量等方面的要求也越来越高，因此对于日常管控体系的建立需求也越发明显，这也正是上海市未来努力的方向。而卫生统计调查制度历经几十年的发展，其日常管控体系相当成熟，不仅拥有法律法规和规范性文件等一系列制度保障，而且拥有一支贯彻落实相关要求的人员队伍。由此可见，日程管控体系成熟度方面的巨大差距，也会导致两类数据收集的最终结果出现偏差。

　　3两类数据的应用与建议

　　通过以上分析可知，两类收据采集初衷、方式和日常管控等模式的本质差异，必然导致其数据汇总指标上的出入，并且这些客观存在的差异很难在短时间内消失。因此一味地追求最终汇总指标的完全一致，或者完全放任这些数据的差异存在都是不恰当的，只有充分理解差异及其存在的原因，优势互补，才能更好地为卫生决策服务。结合上海市的实践，我们总结了几点建议如下：

　　3.1明确界限和内涵

　　在分析利用两类数据时，首先需要明确两类数据分别覆盖哪些机构，所收集变量的明确内涵，这样才可以充分理解分析结果的含义以及两类数据最终指标差异的内涵。例如上海市大数据平台采集的是全市二三级公立医疗机构和社区卫生服务中心的诊疗数据，并且其中没有包括部队二级医院和企事业职工医院等机构;而卫生统计调查则覆盖的是全上海所有卫生机构，两者覆盖的机构并不完全匹配，这样平台数据汇总数量必然小于统计汇总的数量，指标的差值则是平台没有覆盖机构的情况。因此，分析利用信息平台大数据时，建议首先明确平台覆盖的数据界限和内涵，进而明确与卫生统计收集数据的范围和内涵差异。

　　3.2统一口径和标准

　　在利用两类数据时还要考虑统计口径和标准是否一致，指标数据只有在其统计口径和标准一致的情况下才具有可比性。而在上海市的实践中，发现很多大数据平台的数据接口的设计口径与传统统计制度的口径存在差异。例如针对医院的级别划分，传统统计口径是按照卫生部医院等级评审结果进行划分的;而数据平台中汇总的逐条诊疗数据中对医院的级别划分是根据生产系统中医保定价中的等级收费标准进行划分的。这样最终按医院级别汇总的人次和费用数据均会有相当的出入。其实两个口径对于了解体制运行情况均有实际价值，甚至医保定价的标准更有意义，虽然其与传统的口径有出入。因此，在大数据采集平台开发和设计初期，建议纳入多种分类口径的识别变量，这样可以增强多种口径输出的能力，后续在做多口径指标比较或相互印证时，可以使得数据指标更具可比性。

　　3.3理解差异原因，指导实际监管

　　比较两类数据指标之后，其中有部分差异可以通过深入分析，了解到以往传统统计上报模式下无法显现的信息。如医院各自信息内部有些约定俗成的习惯性操作，例如某些项目的收费选择等。因为所有的收费项目均被人工对应到统计规定的条目中进行汇总上报;而实时采集系统中所采集的诊疗信息则是医院原始的记录，所以在分项目汇总时会发现很多以往观察不到的内容，如住院护理收费项目也出现在门诊就诊的病人记录当中等，这些看似不是很合乎逻辑的现象恰恰反映了医院真实的操作习惯，而深入了解以后可以发现有些操作是情有可原，有些操作可能存在违规现象。由此可见，实时采集医院诊疗数据是有一定的独特优势的。而这部分内容则对卫生政策制定可能更具指导价值。

　　3.4挖掘各自优势，实现互补应用

　　上海市两类数据比较的初衷主要是相互印证，增加可信性。但随着对数据理解地加深，发现差异存在的必然性之后我们将工作重点转向了如何优势互补地利用这两类数据。例如在时间维度方面，统计数据的优势在于时间序列的完备，医疗大数据的优势在于实时更新，因此可以将两类指标融合运用于预测模型，即利用完备时间序列的统计数据建模，然后运行实时数据作为调整系数，不断修正预测模型，最终可以得到更为精准的预测模型。

　　总之，医疗大数据的发展，为整个卫生行业的发展提供了机遇和挑战，如何用好医疗大数据，充分理解和把握此类数据与传统统计数据的关系，将两类数据融合运用，都是卫生信息化工作者面临的崭新课题。本文仅是结合上海市的实践进行了相应的探讨，希望可以为相关工作的开展提供参考。——论文作者：崔欣①曹剑峰①陈雯①谢桦①△