大数据挖掘在食品安全风险预警中的应用探讨
发布时间:2020-09-17
摘要:近年来,我国食品安全问题日益严峻,利用大数据挖掘技术对食品安全进行有效预警,具有积极的现实意义。本文在简要探讨食品安全风险预警体系整体构建思路的基础上,就食品安全风险预警中数据挖掘的各阶段要点及不同数据挖掘方法的优缺点,进行分析探讨,以期最大限度地发挥大数据挖掘技术在食品安全领域的积极作用。
关键词:大数据挖掘;食品安全;风险预警
推动大数据和实体经济的深度融合,是党的十九大报告的重要内容之一。具体到食品安全领域,随着近年来各地暴露出来的食品安全问题的增多,将监管前移加强安全风险预警构建,从而实现对食品安全的精准和主动防控,已成为大众关注的重要课题。大数据挖掘技术作为一种基于数据库、统计学、模式识别、可视化技术、机器学习、人工智能的技术手段,能对海量数据中潜在的、隐含的、有价值的、有意义的数据进行高度自动化的挖掘、分析以及归纳性推理,从而帮助决策者有效管理资源、预测未来走向、适时调整策略、降低风险、做出正确决策。因此,将大数据挖掘技术引入食品安全风险预警中,利用大数据挖掘技术来源丰富、数据容错率较高、整体数据展现能力强、非结构化数据处理能力强等优势,为食品安全风险预警提供更强大的数据平台和技术手段,成为越来越多研究者关注的重点,本文就此进行分析探讨。
1食品安全风险预警体系整体构建思路
实践中,食品检测数据主要包括各类分析检测数据、检测报告、地理信息数据、网络舆情数据、现场照片、录像等,具有种类多、体量大、增长速度快等特点,采用传统的数理统计方法,虽能得到一定的预测结果,但容易受到人力、物力以及客观因素的制约,也较难发现数据间的潜在关联,不能精准把控安全风险因子的变化趋势,总体预测能力较弱。为此,基于大数据挖掘的食品安全风险预警体系,就是利用大数据挖掘技术,对食品安全供应链中涉及的各环节要素的海量数据,进行主动、随机、持续、系统的收集,在此基础上,对涉及的各环节指标进行综合处理、分析,确定各环节中潜在的问题和风险,进而对社会关注度高、风险较大的检测项目作出风险预警。实践中,基于大数据挖掘的食品安全风险预警体系的设计可如图1所示。其中,各层的功能主要如下:①信息分析层。从品企业、行业协会、食品管理部门等相关部门网站中,对相关的检测数据及舆情数据进行汇总集合;②数据处理层。通过检索、标引、分类等方式对基础数据进行整理,为后续风险预测打基础;③数据汇集层。对预测结果进一步分析,反应、报道食品预测结果的新动态、新成果与新消息。
2数据挖掘要点分析
对项目数据的挖掘,是食品安全风险预警管理体系中的重要一环和基础工作。实践中,完整的数据挖掘工作涵盖数据准备、数据挖掘、结果评估三大阶段内容,各阶段的数据处理要点具体如图2所示。以基于大数据挖掘的肉类食品安全风险预测为例,该项目的数据挖掘要点如下:
相关知识推荐:食品安全论文发表选刊技巧
2.1数据准备阶段。首先要明确挖掘任务,并生成本次数据挖掘项目的计划,接着围绕该任务目标,从食品安全业务系统的各相关数据源中,抽取出与任务目标相关的、且方便用于业务分析、逻辑清晰的相关原始数据。如本次项目所抽取的信息,主要为几年来国家食品药品监督管理总局直属系统公开发布的全部批次的肉与肉制品监督抽检信息,涵盖肉制品、畜禽肉及副产品等各产品类型,同时包括监督抽检合格与不合格产品的名称、生产企业、生产日期、检验项目、检验结果、标准值、商标和规格型号等原始信息,结合成未加工过的待挖掘数据。在此基础上,对冗余数据、数据值缺损以及含有错误或歧义的数据,进行清洗、整理、补充或光滑噪声等处理,完成数据预处理,并将连续数据与离散数据进行相互转换,以方便数据最后的联机分析及挖掘处理。如,本次项目排除、清洗的无效属性信息主要包括如下几种:抽样地址、商标、规格型号、检验结果、标称生产企业地址等,而将抽样省份、产品类型、产地、生产日期、年份、是否大型企业等属性数据作为构建模型的数据集。
2.2数据挖掘阶段。采用适合的数据挖掘算法,构建食品安全预警数据分析模型,并从准确度、复杂度、有效性及实用性等方面,对数据挖掘模型进行评价。如本次项目主要采用人工神经网络建立BP神经网络模型,构建过程主要如下:肉类数据→自动数据准备→分区→检出结果→分析。其中,样本属性均为名义变量,目标变量为“合格”或“不合格”,得到各属性变量对预测结果分类的重要性情况。
2.3结果评估。将模型对数据挖掘所得出的结果,采用用户能够理解的方式进行表述。如本项目即利用模型所得结果,构建出肉类食品安全风险与所在省份、生产日期/月份、产地、季节、产品类型的关联值,从而用于指导百姓实践购买。
3数据挖掘方法的选择
实践中,食品种类多数目大,加工程序错综复杂,供应链涉及环节众多,如食品原材料的种植、生产、加工、流通、消费等,以上种种客观因素,使得食品安全风险监测的检测数据呈现出明显的海量性、离散性、稀疏性特点,从而也给数据挖掘带来了严重挑战。因此,要提高风险预警的精准性,必须根据挖掘任务及相关数据特点,选择最适合的数据挖掘算法。当前,常见的数据挖掘方法主要有关联规则、决策树、人工神经网络、聚类分析、贝叶斯分类等,以上各数据挖掘方法均有其优势和缺陷性,具体如表1所示,因此,在进行大数据挖掘时,必须审慎对待合理选择。而结合以往多项资料看,当前在食品安全风险预测中应用比较多的方法是关联规则、决策树、人工神经网络三种。且经大量实践证明,关联规则挖掘技术在食品安全风险评价与预警中多因素的分析方面,比其他挖掘方法优势更为明显,且得到的规则更为直观,因此是目前比较推荐的数据挖掘方法,实用性更强。
总之,食品安全关乎国计民生和社会稳定,利用大数据挖掘技术对海量的食品安全数据进行收集、整理、分析,构建切实可行的、高效的食品安全风险预警体系,是提高食品安全监管水平的重要举措。但必须指出的是,现阶段业内虽然对于大数据技术在食品安全风险预警中的应用有较多探究,但该技术目前在国内仍属于起步阶段,因此,需要我们积极结合我国食品安全工作的现实情况,加大相关方面的技术研究和探索,以更好地发挥大数据挖掘技术在食品安全领域的积极作用。——论文作者:雷万钧