2023-07-07 18:09:02 来源:商业新知网
今天,伴随着技术的不断迭代与进步,大数据分析和人工智能技术已经应用到各行各业之中,新一代人工智能算法依靠海量的数据和算力,在很多领域取得了非凡的突破。大数据、算力、大模型等正在深刻改变着人们的生活。科技的重要性可想而知,但比科技的重要性更为深入的是,科技是把双刃剑,成就了人类,但风险也如影随形,敏感信息处理、隐私泄露等数据安全问题带来的挑战,正在蚕食数字科技时代的发展成果。
尤其是,人工智能建模时访问与使用的数据越多、数据的来源越多样化,模型输出的准确率越高。于是跨组织、跨行业的数据共享成为智能化系统精度提升的重要手段。而数据共享必须建立在隐私安全的前提下。2023年7月7日,由世界人工智能大会组委会办公室指导,蚂蚁集团、机器之心和隐语开源社区联合主办的 2023WAIC 数据要素与隐私计算高峰论坛在上海世博会议中心举行。论坛呈现了隐私计算新理论、新技术、新成果,连通政产学研用各界,共探数据要素流通与安全的平衡点,意在助力数据要素市场体系建设,推动数字经济安全合规高质量发展
01丨失效的“最优解”
(资料图片仅供参考)
隐私计算技术本质上是一个促进数据流通、降低数据流通摩擦力的技术,可以在保护用户隐私的前提下给行业带来新鲜的、安全的、深度的数据,释放数据要素的生产力,促进数字经济的发展。
在以前,隐私计算或者说是隐私保护计算,被视为从技术角度实现了数据流通与隐私保护之间的平衡的最优解,当是做到了数据的“可用不可见”,既实现了数据价值的流通与共享,又实现了数据的隐私保护。“不可见”指的从技术角度屏蔽了敏感信息和隐私数据,为不可分享或者不能的数据加上一层安全的“防护罩”,以实现事实上对隐私数据的保护,也就是不明文泄露、不直接明示。
不过,从实践来看,前期的技术赋能并不是“最优解”。上述只能解决流通过程中的安全问题,在数据流通之前和之后的权属和收益问题仍不明确。
通过密码学或者是分布式机器学习加密码的方式,来对于信息加密传输到中心再进行解密,解密过程和加密过程全部在计算机系统内完成,确实可以实现可用不可见,但实际处理过程中仍存在大量安全隐患,比如有的密文可以被反推出明文。另外“隐私计算”技术产品的安全分级标准与行业信任共识也有待建立。
西方世界知名的网络视频平台奈飞曾经就保护用户隐私做过一次算法的印证和比赛。当时奈飞公布了一部分做了去标识脱敏处理的用户评分,结果被UTAustin的两位研究者关联到了相应用户的ID,并识别出了其中一些用户身份。2010年 Netflix为此被罚款900万美金。此前的2006年,为了学术研究,“是美国在线”(AOL)公开了一些做了去标识和脱敏处理的匿名化的搜索记录。但是《纽约时报》通过这些记录,找到了真实世界中对应的一个人。后来AOL遭到起诉,为此赔偿了大概总额高达500万美金的罚款。
上述案例中,匿名化实现主要表现在个人身份识别信息(PII)的泄露,和个人的属性行为数据导致的个人身份泄露。由于某些个人属性行为数据的独特性,可以间接识别出特定自然人的身份。也就是说,数据还是要从用户自己持有的终端,例如手机上传到网站或者机构的服务器再进行后续计算操作,这一过程数据会在一个开放空间中存在,那么只要掌握足够多的数据,就可以跟脱敏后的数据进行关联来查找相关性,最终可能会通过各种算法找到真正能对应的人。
数据要素流通与安全的平衡到底如何实现?有没有一个行业安全分级标准来助力解决数据流通与数据安全的全球性行业难题?
02丨可信、易用的开源基建
在“可用不可见”的基础上,隐私计算技术达到“可算不可识”,才是实现个人隐私保护和数据要素行业发展平衡的关键。蚂蚁集团副总裁&首席技术安全官韦韬曾指出,隐私计算首先要满足匿名化的要求,不能够识别到特定的自然人;另外,要可算,假如说数据完全没有办法计算,没有办法产生数据价值,那么这个数据要素行业也无法发展。
“可算不可识”,整个过程并不传输数据,只是通过加密性的算法调整,同时对符合标准的个人数据进行分散式的计算,最终将计算结果传递到平台,而不是传导隐私数据本身。
当然,在具体的实践中,数据要素价值要实现“可算不可识”强依赖于安全的受控环境。需要对所有可能产生数据关联的通道进行强管控:包括研发过程的中间数据,可以通过如动态匿名等方法防止重识别;另外在结果输出的时候,要防止输出结果由于精度过高,有机会导致原始属性行为数据通过数据信息传导导致个人身份的间接泄露。
总之,在人工智能大规模数据流转中,守护数据安全与用户隐私是数字化的基石。可信隐私计算被认为是解决这一问题的支撑性技术。
在此背景下,自2016年起,蚂蚁集团开始打造隐语可信隐私计算技术栈,旨在实现数据密态流通,将数据要素持有权和使用权、运营权分离,以支持数据要素产业安全健康的发展。
据介绍,可信隐私计算框架隐语是隐私计算技术中的底层技术,最初是由可信计算组(TCG)推动和开发的技术,可以在计算机启动时刻就开始进行安全度量,而且有硬件可信模块TPM/TCM以及软硬件协同保障的完整的验证链。在国内已得到了广泛推广,并成为等保四级的关键支撑技术。
如果说隐语框架开源是旨在汇聚开发者技术合力,共建隐私计算技术社区,那么隐语开放平台则是让需要用这个技术的“用户”低门槛操作,让隐私计算这一技术在终端需求侧的应用更简单、更广泛。2022年7月,可信隐私计算框架隐语正式开源。又一年的技术沉淀后,隐语在各个纬度不断迭代升级,2023年第六届世界人工和智能大会上,蚂蚁集团重磅发布隐语开源框架 1.0 版本,共享 kuscia 隐私计算应用编排框架成果、推出面向隐私计算初学者的功能体验工具 MVP 部署包,推动隐私计算技术互联互通与易用性共建。
蚂蚁集团认为,人工智能的深度应用,不仅对数据、算法、算力提出了更高要求,也对安全、隐私、伦理提出更多挑战。在确保数据安全和隐私保护、健全人工智能伦理与安全的前提下,才能让AI技术真正地释放应用价值。隐私计算作为其重要技术支撑,正在迎来技术突破和产业发展的新动力,但易用通用性一直是行业掣肘。
隐语新版本有三大优势:首先,开源Kuscia隐私计算任务编排框架,可以解决业务在使用隐语时端口合并、API接入等集成问题,支持通过互联互通或者内置部署第三方系统等不同模式与第三方系统互通。其次,新增支持SS-LR开放算法协议,致力于打造黑白盒全栈互联互通能力。
同时,隐语1.0推出了“开箱即用”轻量化部署体验包,再次降低了隐私计算应用门槛。让可信隐私技术能帮助更多技术公司和机构。
03丨开放助力数智生态
在本次论坛上,蚂蚁也正式开源了基于TEE技术的金融安全级方案“HyperEnclave”。TEE是隐私计算的技术路线之一,被认为是数字化时代数据安全上云和隐私保护计算的最有效技术手段。据了解,HyperEnclave的优势是安全、兼容。它支持国内外主流CPU硬件平台,提供统一TEE抽象,核心代码经过形式化验证。
同时,HyperEnclave将硬件技术最重要的信任根托管在可信权威机构,满足国产自研要求,已具备规模化商业场景的落地经验。此次开源也有望为行业带来更透明、更可信、更统一、更通用的国产TEE技术方案。
韦韬表示,“历史的机遇、技术的变革,将数据智能推向了前所未有的高潮,也带来了更加严峻的数据安全挑战,数据流通迈向密态化是未来趋势。数据密态要求下,隐私计算的方法体系、平台框架、技术标准都面临全新变革”。韦韬也呼吁更多的同行参与到开源和生态建设工作当中,“开源隐私计算核心产品一直是我们对行业的态度,未来蚂蚁将持续加大隐私计算的开放力度和广度,与行业一道构筑AI智能时代数据安全护城河。”
本次论坛还重磅发布 IEEE 首个「可信执行环境安全」国际标准 IEEE 2952-2023《Standard for Secure Computing Based on Trusted Execution Environment》,迈出探索数据跨境管理规范的重要一步。
该标准由蚂蚁集团牵头制定,制定了基于可信执行环境(TEE)的安全计算系统的技术框架,从隔离性、保密性、兼容性、性能、可用性和安全性等方面定义了通用安全计算平台的技术要求,并指定了安全计算技术的用例和场景。为了更好地落地相关标准,各界代表还将进一步探讨了「隐私计算标准如何更好推动产业发展」相关话题。为隐私计算如何护航AI智能、助力数字经济发展提供更加明确的前进方向。
关键词:
7月5日下午,2023全球数字经济大会专题论坛-2023产业互联网创新发展论
“开放麒麟1 0”发布!我国首个开源桌面操作系统来了。
据报道,Threads是meta基于Instagram推出一款与推特竞争的独立应用,该
李玉杰表示,新一轮科技革命成为拉动我国的数字经济发展的新引擎。
在数字经济与实体经济深度融合的今天,企业上云步伐不断加快,云生态所