基于大数据可视化技术的审计线索特征挖掘方法研究
发布时间:2022-03-05
【摘 要】 电子数据审计的研究与应用是近年来审计领域的热点问题。传统的电子数据审计方法一般是查找审计线索,发现被审计单位中存在的问题,没有进一步挖掘审计线索的特征,分析产生相关问题的规律和原因。因此只能是发现被审计单位存在的表面问题,不能通过发现的审计线索分析出更深层次的问题。本文首先分析了研究审计线索特征挖掘方法的重要性、目前常用审计方法及其存在的不足,在分析大数据可视化技术的基础上,提出了基于大数据可视化技术的审计线索特征挖掘方法,并分析了该方法的原理。以某医院审计为例,验证了该方法的有效性。最后,探讨了该方法的优缺点及适用情况。研究结果为今后大数据环境下开展电子数据审计提供了理论基础与技术方法。
【关键词】 大数据审计 电子数据审计 数据可视化 审计线索 特征挖掘
一、引言
大数据时代的到来为各行业提供了机遇和挑战。2008年 9月 4日,《Nature》杂志大数据专题论文中首次提出大数据的概念(Lynch,2008),《Science》杂志 2011年专刊讨论了如何管理大数据。目前,大数据的研究和应用已经成为国内外的热点。随着被审计单位信息化趋向普及,审计对象的信息化使审计信息化成为必然。有价值的审计线索是帮助审计人员发现被审计单位有关违规或违法问题的关键因素,信息化环境下,审计人员通过审计被审计单位的电子数据,发现审计线索,然后通过对审计线索进行确认,获得相关审计证据。因此,把握住审计线索的特征,不断提高审计线索的发现方法,发挥审计功能是今后审计工作的一项重要任务。
随着大数据时代的到来,研究如何借助大数据技术来充分发挥审计的监督作用,具有重要的理论意义和应用价值。虽然目前常用的电子数据审计工具与方法等能帮助分析电子数据,发现审计线索,满足电子数据审计的基本需要,但如何透过现象看本质,通过发现的审计线索分析出更深层次的问题尚缺少研究。目前电子数据审计过程中,枯燥的数字和分析结果影响了审计效率,且难以帮助审计人员从审计大数据中发现被审计单位电子数据中的关系、规律和趋势。考虑到大数据分析结果一般来说不容易理解,把分析结果转换成容易理解的图形和图表有助于分析人员更好地理解大数据。国际内部审计师协会认为数据可视化是大数据的一个重要特点(GTAG,2017)。数据可视化是通过图形化手段,将复杂的数据模型表达出来,从而清晰有效地表达数据中的信息,用户通过数据可视化可以“洞察”数据中的规律(Vitaly,2007 ;陈伟,2017)。大数据可视化技术的发展为解决以上电子数据审计过程中出现的这些问题提供了机遇。本文结合目前大数据的研究与应用现状,研究基于大数据可视化技术的审计线索特征挖掘方法。
二、基于大数据可视化技术的审计线索特征挖掘方法理论分析
(一)目前常用电子数据审计方法存在的不足
目前,信息化环境下对电子数据审计一般采用基于 SQL的数据查询方法和基于电子表格软件的数据查询方法。基于 SQL的数据查询方法一般是通过对审计问题的分析,构建相应的 SQL语句,然后通过在一些数据库工具(如 Microsoft Access、SQL Server等)或审计软件中运行以上 SQL语句,查找出相关审计线索。基于电子表格软件的数据查询方法一般是借助电子表格软件(如 Excel、金山WPS表格等)中的排序、筛选、分类汇总、数据透视表等功能对数据进行分析。目前常用电子数据审计方法存在以下不足 :一是基于 SQL 的数据查询方法中,无论采用数据库工具,还是审计软件,一般都需要编写烦琐的 SQL语句,且对审计人员的技术水平要求高 ;分析结果以二维表格形式展示,当结果数据量大时,显示的结果枯燥,并且不形象 ;仅是通过排查的方式发现审计线索,在深度发现审计线索特征以及发现复杂性隐蔽的审计线索方面尚存在很大的不足。二是基于电子表格软件的数据查询方法中,对于海量数据的分析和半结构化数据的分析存在一定的不足,同时可视化分析功能有限。进入大数据时代,数据数量不断增加,数据类型和结构更加复杂,而电子表格软件所能处理的数据数量和数据类型受限,导致常用的电子表格软件不能满足大数据审计的需要。三是难以发现复杂性隐蔽问题以及问题产生的原因和规律,进而从根源上防范。
(二)大数据环境下的电子数据审计方法原理
信息化环境下如何审计被审计单位的电子数据是一项重要任务。电子数据审计一般是指对被审计单位的电子数据进行采集、预处理以及分析,从而发现审计线索,获得审计证据的过程(陈伟,2012)。大数据环境下,电子数据审计的部分环节与方法发生了变化。根据目前大数据环境下开展电子数据审计的需要,提出了大数据环境下的电子数据审计方法。
(三)基于大数据可视化技术的审计线索特征挖掘原理
目前大数据分析的相关理论和方法研究一般从两个方面展开(任磊,2014 ;Keim,2013):一是以各种高性能处理算法、智能搜索与挖掘算法等为主要研究内容。它是目前大数据分析领域的研究主流,它从计算机的视角出发,强调计算机的计算能力和人工智能,例如基于Hadoop和Map/Reduce框架的大数据处理方法以及各类面向大数据的机器学习和数据挖掘方法等。二是以大数据可视化分析(Keim,2013 ;任磊, 2014)研究为主要代表,从人作为分析主体和需求主体的视角出发,强调基于人机交互的、符合人的认知规律的分析方法,意图将人所具备的、机器并不擅长的认知能力融入分析过程中。大数据环境下,数据可视化技术能够更简洁地表达被审计大数据的信息,有助于审计人员探索、分析和解释复杂的海量数据,借助数据可视化技术,审计人员能够“洞察”被审计数据信息中内在因素的模式和关联,快速从大数据中发现审计线索及其特征。
基于大数据可视化技术的审计线索特征挖掘方法原理如图 1 所示。在审计大数据集成和预处理的基础上,借助某种大数据可视化软件对被审计数据进行可视化建模分析。审计人员结合自身的审计背景知识,发挥人类视觉系统的敏感性,通过对可视化的结果图形和图像进行观察、分析和认知,从总体上系统地理解和分析被审计数据的内涵和特征,从而发现审计线索,获得审计证据。同时,根据需要,交互地改变可视化软件的设置,改变输出的可视化图形和图像,从不同方面获得对被审计数据的理解,从而全面发现审计线索的特征,分析产生相关问题的规律和原因。概括来说,通过基于大数据可视化技术的审计线索特征挖掘,使审计的过程不仅仅是查找审计证据,而是通过对审计线索的分析,发现相关问题产生的规律,及时提出防范和化解风险的对策建议,完善相关管理体制、修订相关法律等,及时揭示和反映对全局和未来有根本性影响及存在重大风险隐患的问题。
三、基于大数据可视化技术的审计线索特征挖掘方法应用案例
(一)案例背景
2016年7月1日,国家发展改革委等四部委对外发布《推进医疗服务价格改革的意见》,要求各地围绕公立医院综合改革,统筹考虑取消药品加成及当地政府补偿政策,同步调整医疗服务价格。2016年11月8 日,《国务院深化医药卫生体制改革领导小组关于进一步推广深化医药卫生体制改革经验的若干意见》指出,所有公立医院取消药品加成,统筹考虑当地政府确定的补偿政策,精准测算调价水平,同步调整医疗服务价格。国家卫生计生委表示2017年我国城市公立医院将全部取消药品加成。
相关知识推荐:数据分析论文发表指导
本案例以政府推行取消药品加成政策为背景,探究2013~2016年某公立医院(该公立医院为国家药品零加成试点医院,西药已实行零加成)是否存在药品加成的违规现象。基于R语言,以该医院中西药价格审计为例,分析大数据可视化技术在药品价格加成审计中的应用。通过挖掘可视化分析结果以及图形蕴藏的潜在信息,深度分析加成药品的特征,为审计人员提供决策。
(二)目前常用药品价格加成审计方法的不足
对于药品价格加成审计,目前常用的审计方法是先根据分析,编写SQL语句,然后在某一数据库工具或审计软件中运行该SQL语句进行分析,这种方法仅仅能发现所要查找的问题,但不便于审计人员从整体上把握药品价格加成情况,不能进一步深入分析更多的现象和规律及其原因。审计人员不应仅仅满足该公立医院关于西药价格的审计结果,还应扩大审计范围,审计其他公立医院是否同样存在药品加成的违规问题,价格加成类药品是否同样具有相似特征,举一反三,深挖公立医院售卖药品存在的加价率问题,为国家取消药品加成政策的实施保驾护航。
(三)大数据技术及可视化软件选择
在何种情况下应该用何种可视化方法才能够让审计数据分析达到最佳的效果,是大数据可视化技术在审计中应用的重点。比如,在分析我国新型农村社会养老保险制度的发展情况时,对每年、每个地方、每个参保人员的信息进行逐一计算,当把数据在地图软件上可视化之后,其具有的特点就能很好地显现出来,审计人员便可以轻松地看出全国各地新型农村社会养老保险制度近年来的发展变化情况。一般来说,大数据可视化技术包括文本可视化技术、多维数据可视化技术、网络可视化技术、时空可视化技术等。以文本可视化技术为例,文本数据是大数据时代非结构化数据的典型代表。文本可视化的意义在于能够将文本中蕴含的语义特征(例如词频、重要程度、动态演化规律、逻辑结构等)直观地展示出来。标签云就是一种典型的文本可视化技术。通过标签云,可以将关键词根据词频或其他规则进行排序,按照一定规律进行布局排列,用大小、颜色等图形属性对关键词进行可视化,例如,用字体大小代表该关键词的重要性。常见的其他大数据可视化技术还有柱状图、折线图、饼图、散点图、气泡图、雷达图、地区分布图、树地图、热力图等。
本文根据审计的需要,选择了适合本审计案例需要的气泡图、标签云、散点图等可视化技术。在此基础上,需要选择合适的大数据可视化工具实现被审计数据的可视化分析。目前,大数据可视化工具主要包括:开源的、可编程的工具,如R语言、D3.js、Leaflet、Python、Processing.js等 ;商业化软件工具,如Tableau、 Qlikview、SAS、SAP Business Object 水晶易表、IBM Cognos等。考虑到大数据可视化分析工具R语言是比较简单的、开源的大数据可视化分析软件,本文以R语言为例,分析如何进行深度分析。
(四)整体情况宏观分析
基于以上分析,为了从整体上了解该公立医院 2013~2016年期间是否仍然存在药品加成的违规现象,根据对被审计问题的分析,借助 R语言进行建模,以加价率的大小定义气泡形状的大小,然后将药品加成情况以气泡大小的形式在图中随机分布,生成的气泡图如图 2所示。图 2中,气泡面积越大,则代表该药物加成情况越严重。根据气泡的大小,审计人员可以对某医院 2013~2016年药品加成整体情况作宏观分析,快速、清晰观察出药品加成情况。
(五)规律深度分析
通过以上对药品加成整体情况的宏观分析,发现被审计单位存在药品加成问题。这些被审计单位存在的药品加成问题有没有什么规律可循呢?比如什么价格的药品容易加成、哪些类型的药品容易加成、被审计单位各年度的药品加成情况怎么样等等。对于这些问题,需要做进一步的分析。
1.加成药品价格分布情况分析
通过将药品价格(“购入价”与“零售价”)作为横坐标,将药品加成率作为纵坐标做散点图分析,其结果如图3所示。其中,以散点颜色的深浅区分其所属年份,同时,以散点的大小表示药品加价率的大小,散点形状越大,则代表该种药品加成越严重。不难发现 :大多散点分散于横坐标上,表明大部分药品不存在加成现象 ;通过颜色深浅的比对,发现每年均会有药品加成现象 ;价格加成的药品多集中在购入价较低的区域(靠近纵坐标),且价格低的药品,其加价率较大 ;存在一些药品加成率小于零的现象(散点出现在横坐标以下)。
为了进一步分析是否存在“价格加成的药品多集中在购入价较低的区域”以及“价格加成的药品多出现在什么样的价格区域”,对图3所反映的信息做进一步的可视化分析,由可视化分析结果观察到存在价格加成的药品其购入价大多集中在100元以下。因此,发现加成药物具备购入价较低的特点。
2.加成药品的剂型特征
为了探究所有加成药品的剂型特征,对加成药品进行标签云分析后,结果显示各种剂型药品的加成的情况。其中,剂型为胶囊和注射液的药品存在价格加成情况最多。因此,发现该公立医院2013~2016年存在价格加成的药品剂型以胶囊和注射液居多,审计人员应该对类剂型的药品加强关注。
3.药品加成的变化趋势分析
为了分析该医院近年执行国家取消药品加成政策的情况,对药品加成的变化趋势进行可视化分析后,结果显示2013年加成药品的数量较多,但这些加成药品的加价率却较小,2014~2016年,加成药品种类较少,但其各自的加价率明显偏高。由此,发现从表面上看,作为取消药品加成的试点医院,该医院药品价格管理不断规范化,药品加价的违规现象不断减少,给审计人员的感觉是该公立医院正在逐渐遵循国家取消药品加成的政策,但实际上该医院却通过增加药品加价率的方式变相地进行药品加成。
(六)案例总结
对于本例,通过以上方法,不仅清晰、直观地发现了存在药品加成的情况,而且还进一步分析了哪些价格范围的药品容易加成,哪些剂型的药品容易加成,药品加成的变化趋势等,从而为从根源上分析药品加成问题提供了依据。同理,本方法可应用于其他医院药品加成问题审计之中。
四、关于基于大数据可视化技术的审计线索特征挖掘方法的进一步探讨
(一)基于大数据可视化技术的审计方法与常用方法的比较分析
基于SQL的数据查询方法、基于电子表格软件的数据查询方法,以及基于大数据可视化技术的审计方法这三种审计方法的优缺点如表1所示。
(二)基于大数据可视化技术的审计线索特征挖掘方法适用情况探讨
审计人员通过采用大数据可视化技术对被审计大数据进行分析,不仅能够“洞察”被审计数据中的问题,快速从被审计大数据中发现审计线索,而且可以通过对审计线索的分析,发现相关问题产生的规律,及时提出防范和化解风险的对策建议。概括来说,基于大数据可视化技术的审计线索特征挖掘方法适用情况探讨如下 :
一是以帮助实现“集中分析,分散核查”的审计方式,便于审计人员从整体上把握被审计大数据情况,快速发现可疑数据,提高审计效率。二是需要被审计单位数据量具备一定规模。一般而言,应用基于大数据可视化技术的审计线索特征挖掘方法进行分析的数据量规模越大,分析结果越精确。三是审计人员需要采用专门的大数据可视化分析软件,对于有一定编程能力的审计人员,可以选择开源软件,但对于不具有编程能力的审计人员,则需要使用专门的大数据可视化商品化软件。
当然,基于大数据可视化技术的审计线索特征挖掘方法不能够解决大数据环境下所有的审计问题,但通过和其他审计方法一起使用,能够发现相关问题产生的规律,及时提出防范和化解风险的对策建议,揭示和反映对全局、对未来有根本性影响及存在重大风险隐患的问题。
五、总结
大数据时代的到来使审计工作不得不面临被审计单位的大数据环境, 如何便于审计人员从整体上把握审计大数据情况,从审计大数据中发现被审计单位电子数据中的关系、规律和趋势,分析出更深层次的问题,成为大数据环境下开展审计工作的一项重要任务,大数据可视化技术成为实现这一需要的一个重要手段。本文结合目前大数据的研究与应用现状,研究了基于大数据可视化技术的电子数据审计方法,并以某医院药品加成审计为例,借助大数据可视化工具,不仅分析了该医院是否存在药品加成情况,同时还深度分析了药品加成存在的规律。研究结果一方面为今后国家取消药品加成政策的实施提供了决策依据,同时还为审计人员开展相关审计项目提供了理论方法和经验数据。
由本文的研究可知,相对于目前常用的电子数据审计方法,基于大数据可视化技术的电子数据审计方法具有以下优点 :一是从根源上发现相关问题。通过大数据可视化分析,发现被审计单位产生相关问题的深层次规律,分析出更深层次的问题。二是为实现相似项目审计的精准审计打下了基础。通过大数据可视化分析,发现被审计单位产生相关问题的深层次规律,为今后的相似项目审计提供了理论方法和经验数据。
综上所述,通过大数据可视化的手段“洞察”被审计数据中的问题,发现被审计对象的发生问题的深层次规律,成为今后大数据审计应用的重要内容与方向。——论文作者:陈 伟 居江宁
主要参考文献:
陈伟 . 2016. 计算机辅助审计原理及应用(第三版)[M]. 北京 : 清华大学出版社 .
陈伟 , 居江宁 . 2017. 大数据审计:现状与发展 [J]. 中国注册会计师 (12): 77-81.
陈伟 , Wally Smieliauskas. 2017. 大数据环境下基于数据可视化技术的电子审计方法 [J]. 中国注册会计师 ,(1): 101-106.
陈伟 , Smieliauskas W. 2016. 大数据环境下的电子数据审计:机遇、挑战与方法 [J]. 计算机科学 (1):8-13,34.
陈伟 , Smieliauskas W. 2012. 云计算环境下的联网审计实现方法探析 [J]. 审计研究 ,(3): 37-44.
刘星,牛艳芳,唐志豪 .2016. 关于推进大数据审计工作的几点思考 [J]. 审计研究 (5):1-6.
任磊 , 杜一 , 马帅 , 等 . 2014. 大数据可视分析综述 [J]. 软件学报 (9):1909-1936.
郑伟,张立民,杨莉 .2016. 试析大数据环境下的数据式审计模式 [J]. 审计研究 (4):20-27