国内

食品安全数据融合的实现路径——数据编码

2018-11-20 15:44:49 来源:

□ 刘杨 贵州科学院

□ 马东 天津科技大学

□ 肖革新(通讯作者) 国家食品安全风险评估中心

当前,信息化发展到了共享阶段,食品安全信息化需要从原本简单的数据上报转变到数据跨界融合层面。由于食品安全数据存在分类与编码标准不统一、系统间数据难以融合、分析关联差等问题,因此,需要通过数据编码标准,实现跨部门、跨层级、跨地域的食品安全相关数据融合与应用。

随着大数据时代的到来,以往条块式单纯业务上报的食品安全信息系统所产生的信息孤岛问题凸显,其已很难满足当前现代化食品安全治理的需求。大数据需要跨界融合才能更好地发挥作用,因此数据融合迫在眉睫。应如何实现数据融合呢?答案就是建立数据编码标准,如果没有数据编码,现实世界、概念世界与数据世界之间的关系映射将会发生紊乱,导致数据统计结果冲突。例如在食品领域,马铃薯是大家十分熟悉的食物,但马铃薯在概念世界中有多种别名,如地蛋、洋山芋、山药蛋、地瓜、土豆等,不利于跨库查询、跨库统计、关联分析及归类汇总。只有将现实世界、概念世界统一于数据编码,才能实现数据融合。简言之,编码就是标准中的标准,就是道、就是根。那么,如何进行食品安全数据编码呢?在研究国内外编码现状和编码系统框架设计的基础上,本文对食品安全数据融合的实现路径进行了具体阐述。

1 梳理现有的食品安全相关信息系统,进行数据字典编制

首先,梳理现有食品安全信息系统中的数据,了解现有信息系统中的数据分类逻辑、编码规则和存在的主要问题。然后,对食品及其食品属性字段进行梳理,包括食品分类编码、时间属性、空间属性、经营者、产品信息、抽样信息、检测结果等字段,进而编写具体食品分类编码数据字典,规范各系统间相同字段编码。

2 以数据融合共享为导向,建立标准食品分类树

新的编码系统并不是将旧的编码系统推倒重来,而是借鉴已有的食品编码系统,从而让新系统更为科学合理,应用更为广泛。考虑到当前多样的食品分类标准难以在短期内统一,本研究以结构简洁为原则构建食品分类树,力求在尊重各方食品分类的基础上找出一种满足食品安全治理、营养健康管理,适用性广、扩展性强的食品分类方法——建立标准食品分类树。

3 确定数据颗粒度,建立编码解码规则

数据颗粒度是通常用于表示组成数据集的最小单元,其涉及食品分类编码的层级和细致程度——食品分类层级越多,粒度越小,可能造成后期数据处理量呈几何级增长。因此,结合实际分析需求和运算便捷性,确定适中的食品数据颗粒度尤为重要。数据颗粒度确定后,建立编码规则,在编、解码方面,欧盟食品分类与编码系统FoodEx2具有较强的适用性,可作为重要参考。该系统采用一致的编码体系,对所有食品相关的类别、术语和属性以流水号编码,由FoodEx2自动生成并分配;共5个字符,首字符为A,中间3个字符为拉丁字母和阿拉伯数字,最后一位字符为拉丁字母,码制为A[A-Z0-9]{3}[A-Z]。理论上,该系统可以对1213056个条目进行编码。解码方面,可在分类树上直接查找食品分类码对应的食品分类名称,如编码“A026V”代表“鱼肉”。

4 食品安全相关数据系统与标准食品分类树编码进行映射

在系统数据映射方面,主要解决的是原有的历史数据与标准的食品分类树进行映射桥接融合的问题。目前,通过关键字查找等完全自动化方式还很难完成系统间数据映射工作。为保证数据映射的可靠性,当其他领域进行此工作时,首选人工核对映射方式以解决历史问题。为解决人工映射工作量大、耗时长的难题,本研究采用“柔性编码对接体系”方式进行映射,它跳出了原有系统中用食品名称的关键词与标准名称进行关键词字符串匹配的简单框架,升级成“隐式马尔科夫模型”的柔性编码对接体系,进行关键词概率匹配,给出每个关键词字符串匹配的概率排列,实现了自动化智能映射,最后辅以人工核实,提高映射匹配的准确度和工作效率。

5 结语

数据编码通过将跨部门、跨层级、跨地域的数据进行汇总融合,按照时间、空间、属性三个维度进行分析,不同属性与时空维度借助编码进行组合,研究环境、食品、污染物、健康之间的内在联系及随时间变化趋势和空间分布规律,从而实现了编码驱动的数据综合分析。

热点推荐

现金博彩app