浅谈医疗数据共享的个人隐私保护

精华
夏季未至
作者
制造

摘 要:医疗数据在开放共享过程中,因为存在数据合规、隐私保护、权责定义等各方面的安全风险与不确定性,导致数据的共享利用仍处于不敢共享不能共享不愿共享的状态中,形成了无数的数据孤岛。通过分析医疗数据共享过程中的需求,基于数据可用不见技术理念构建了安全可信的计算环境,实现了医疗数据的协同共享,充分发挥医疗数据价值。

关键词:医疗数据;隐私保护;安全可信;数据共享;

引言

据统计,2020年全球的医疗数据量高达35ZB[1]。医疗数据包括门诊住院记录、药物临床试验研究数据、人类相关基因组学、代谢、胚胎组学、疾病监测数据等[2]。如何保护好医疗信息系统的数据安全和患者个人隐私是医疗服务的重要工作内容。与此同时相关监管部门要求建设医疗大数据平台,推动医疗数据的创新应用,要求医疗数据不仅要在医院内部、医疗行业内共享,还要与不同行业和部门之间实现互联共享。在此背景下如何保证患者个人隐私数据安全的前提下实现医疗数据的安全共享是一个急需解决的问题。

1.需求分析

医疗大数据平台内存的数据主要是生物大数据、临床大数据、医疗机构大数据、健康大数据[3]。这些重要的数据的共享使得隐私泄漏现象屡见不鲜,严重影响了正常的临床、科研工作。医疗机构大数据主要产生于各医疗单位和组织,包括医院消费记录、药物、器材、医疗工作者等信息[4]。为解决医疗数据共享中隐私泄漏问题,需针对各医疗单位的数据采集、存储管理、数据分析及数据共享等工作构建一套可控、可溯、可信的医疗数据隐私保护体系,在保障数据有效性、真实性的前提下,有效地保护医学数据共享过程中的个人隐私数据安全。

2.解决方案

传统数据共享模式,数据拥有者失去了数据的控制权,无法对共享或交易出去的数据进行干预和监控,难以对数据使用的行为进行管控审计,数据在共享后及流通过程中很容易被复制,造成数据交易范围的扩大,失去控制。需要打造数据可用不可见的新型数据共享模式,解决传统医疗数据共享难以在兼顾安全和隐私的条件下实现高价值数据共享的问题。为了解决医疗数据开放和安全的矛盾,本方案提出一种基于数据可用不可见的技术理念,构建医疗数据安全协同计算解决方案。

在方案中医疗数据的共享只提供数据使用权的分享,而不进行数据所有权的共享,同时对平台内所有数据的操控行为、访问行为进行管控,并对数据所有者的算法进行审查,实现共享数据可用不可见。能够在保护患者隐私的同时实现医疗数据动态共享,这种共享模式与安全多方计算、联邦计算等数据交易模式相比,更灵活,不受算法类型、共享数据量大小等影响,能够更好地适用于患者或医院与研究机构间的医疗数据安全共享[5]。

2.1设计思路

医疗数据安全协同计算解决方案由医疗数据资源管理、隐私数据分类分级、数据安全防护、数据访问接入四部分组成。其中医疗数据资源管理与医疗机构的数据平台或数据共享交换平台进行对接,负责医疗数据的发布、数据申请,数据共享交付的生成等;隐私数据分类分级主要对敏感数据的血缘、数据关系、数据属性等进行管理,形成分类分级报告;数据安全防护和数据访问接入针对数据资源的管理过程、隐私数据访问行为以及数据访问进行管控,构建了一个安全的计算环境。在数据共享过程进行数据使用权交易提供一个安全管控环境,由数据安全入库、数据安全可知、数据安全管理、算法安全审核验证、计算结果反馈等管控流程组成,保证在安全可控环境下完成数据使用权的交换,实现交易数据可用不可见。

2.2医疗数据资源管理

通过数据资源管理系统为医疗机构可交换的数据资源提供统一的注册管理方案,实现技术元数据的自动获取,支持业务元数据的定义,提供资源搜索及血缘分析。同时建立针对医疗系统构建针对性的数据共享方式,制定统一的数据标准和数据规范,实现医疗数据集成、数据交换、数据分发、数据共享等基础能力,最后通过数据治理、数据质量等机制,确保数据的安全可用。

2.3隐私数据分类分级

医疗数据资源管理主要完成大数据平台或共享平台中数据关系发现、数据属性发现、数据血缘发现、数据存储过程发现、数据计算过程发现、数据标记标签、数据分级分类管理等功能。可以对数据库元数据、数据血缘、数据归属关系等信息,将原始数据资产映射为全局虚拟数据视图,通过门户发布数据资产信息,达到数据可知的目的;同时自动对存在在医疗数据资源管理系统中的医疗数据和个人隐私数据进行发现与跟踪,清晰展现数据层级关系、数据与用户之间的关联关系、数据与标签的关联关系等核心关键信息。

2.4数据安全防护

对进入数据资源管理系统的数据首先对数据进行分级分类,然后通过细粒度的权限控制和审计能力,构建一个安全的计算环境,确保敏感数据安全。同时在数据共享阶段,对数据访问行为进行监测和控制;在数据结果输出阶段,进行算法的安全隐私审查,只有审核通过的结果才能出库。

2.5精细化的权限管控

主要基于角色的授权和细粒度授权,支持细粒度的Hadoop数据和元数据的访问控制[6] 。可以控制人员账号或程序账号对于大数据平台以及数据的访问权限。可以监测大数据平台组件(包括Hive、HBase、MongoDB等)的使用、管理、应用系统接口调用等访问行为,按照“最小化”原则从组件级和数据级、协议级三个方面进行访问控制。大数据安全网关会根据数据访问策略对请求进行分析,可以控制数据访问,并对已通过验证的用户提供数据访问特权[7],根据策略匹配情况,采取放行、阻断、审计等措施。

2.6多维立体化审计

从安全接入终端级审计、数据资源级接触审计、操作系统级全息审计、数据资源管理平台级操作审计、入仓网络级流审计等五个维度对入仓数据的计算和处理过程进行安全审计。主要是需要记录的日志包括操作日志、用户登录日志、服务日志、服务状态日志[8]。对数据使用者接触数据的行为进行审计,如数据使用者的语句、IP、用户、数据接触结果、访问数据资源情况,自动记录分析进程执行情况。

2.7数据算法审核和调度

数据算法审核和调度主要是对安全计算环境内的数据获取、算法下沉、远程调度、结果回传等流程进行管控。算法指的是为解决问题而进行的计算机操作规则的一系列步骤[9],在执行数据计算时首先应对算法的合理性、准确性进行审核和测验。然后根据数据需求方的资源需求、算力要求等将一个安全隔离的安全计算环境分配给数据需求方。根据需求方的数据需求通过数据访问控制机制将数据需求方所需的数据资源调度至安全计算环境,并将数据需求方所需的算法下沉至安全计算环境内,通过算法审核和作业调度安全计算环境的计算进行管控。

2.8数据安全接入

数据安全接入主要是通过云桌面技术实现,通过云桌面具备的安全防护能力以及桌面安全防护机制,对云端系统以及终端桌面系统实时进行全覆盖,有效拦截诸如病毒、木马、勒索软件等攻击行为,另外云桌面用户访问数据需要相应的授权,因此由于人为原因造成的数据丢失和信息泄漏等风险就可以大大降低[10]。同时通过云桌面的进程控制能力,全面控制云桌面终端上执行的程序,可防止数据需求者违规安装可对外上传的应用造成数据泄漏。

3.价值分析

本方案首先在确保原始数据不出本地的同时,实现数据安全共享,对数据使用者的访问和处理过程进行全程监管,从数据导入的安全管控,到计算结果出库,对数据共享的计算和处理过程进行监管,使得入库数据在可授权、可控制,数据使用可监管的前提下完成数据的安全共享。其次保证数据最小化利用,所有计算均在安全计算环境中进行,所有的结算结果输出均最小化,最大程度地保障了个人隐私数据安全。最后响应了国家政策规范条例,依照相关标准的技术要求,建立完善的数据安全保障机制,实现数据合法合规安全地对外开放,保障了医疗数据共享中隐私数据的安全。

4.结语

基于数据可用不可见的隐私保护新技术理念,实现了数据所有权与使用权的分离,在保证数据隐私安全的同时对数据进行最大的价值挖掘。本次方案通过数据资源管理、数据分类分级、数据安全防护、可信安全接入等手段构建了安全可信的计算环境,在保障数据所有权的前提下,可开放给社会、企业等对医疗数据进行挖掘,充分发挥医疗数据价值。