邬贺铨院士:标准与法制护航数据运营管理

中国工程院原副院长、中国工程院院士、中国智慧城市论坛专家委员会名誉主任邬贺铨,在中国智慧城市论坛主办的第十届中国智慧城市大会上发表:

“标准与法制护航数据运营管理”。

让我们共同学习原滋原味的演讲内容(演讲速记)。

城市数据是智慧城市的重要资产,一个城市有20万个摄像头的城市,大概一天产生17.28PY的数据,而智慧城市的数据,在目前阶段基本上还是政府买单的项目,所以基本上是政府的数据,而政府采集的数据,尽管它的所有权不是用户,但是它应该是公共数据,应该是在保证国家安全和企业个人隐私的情况下,应该是可以为社会共享的。当然这里面有大量的隐私数据,所以安全防护也是很重要的问题。我们现在都说城市大脑,拿城市大脑来管理我们城市的这些数据。

数据挖掘需要有标准,我这里引用的是去年美国国防部一个数据战略的文件,认为数据可以化分为数据性,一个是可建性,需要有元数据标准,包括共享数据的位置、时间,还有数据的理解性,也就是说这个数据将来要可以透过数据看到语义,这里面为了理解,需要数据有标准化的目录,能够识别转换,还有数据的可链接性,认为单一种类的数据,从挖掘来讲价值并不高,如果把各方面的数据联合起来,挖掘的价值才比较高,而要实现时空异构的数据把它组合,就需要统一的表识符,还有原数据的标准,还有数据的可信性,也就是你采集的数据,是不是符合一定的质量管理要求,它是不是可信的,如果不全面,可以说错误的数据,那这个挖掘得出的价值就有影响,甚至是误导。

另外是数据的互操作性,我们说数据要交换、共享,也就需要互操作,这里面也涉及到标准,能保证互操作时候的精确度,还有数据的安全性。我们这里面有很多涉及到个人企业身份、商业秘密属性的数据,要有安全管理,这里面的安全不仅仅是防护黑客攻击,还有结构权限的管理和审计。这是从标准层面,认为数据应该具有这六个性。

我从法律层面,我认为数据还应该有资产性,我们国家说要发挥数据作为生产要素的作用,实际上数据就是资产,像麦肯锡说的,数据就是石油,数据要资产化,这丽设计到数据的生命周期,并不是数据收上来的从头到尾多少年以后它都有同样的价值,实际上有些数据可以很长时间有价值,有些数据可能是短时间,如果过期了可能就没有价值了,这里涉及到资产用什么衡量,数据的规模,完备性、质量,以及数据的稀缺性。

从法律方面我认为还要明确数据的归属性,数据的所有权是谁的,可交易权、经营权、复制权、开发权、遗忘权,这些都是从数据法律上面我们要考虑的问题。

还有数据开放性,我们说这个数据能不能开放,能不能共享,没有开放共享就不存在有交易的问题了。

先说第一个问题,数据可建性。我们现在城市有大量的数据,各种视频,传感器,捕获到我们城市里头运动的车辆和行人,各种各样的数据,过去我们把摄像头的数据放到交管中心的墙壁上,每一个摄像头对一个电视屏,一个城市的摄像头多得很,基本上只能10秒钟一条马路,一条马路的数据都不少了,人盯着看的。

这个是以色列的特拉维夫,它实际上把所有的摄像头数据,不是一一的对应一个电视屏,而是把所有摄像头的数据合成为一个视频,就像坐直升飞机俯视这个城市一样,在不同时间用不同颜色,标注交通管制交通事故,并且实时发送到驾驶员和行人那里,你可以根据实时数据选择你的出行路线,这是城市大数据的视频合成可视化很好的例子。当然北京也有交通数据,你在马路上看见显示屏,什么地方堵车了,我看见你的显示屏的时候,我的车前进也前进不了,后退也后退不了,为什么呢?因为事先没有人告诉你什么地方好走。

数据易理解性,这次新冠肺炎,我们都是靠核酸检测,实际上核酸检测会有假阴性,这个时候还要辅助CT,一个肺部的CT,可能要做出几百张来,医生一张一张看,哪怕三秒钟看一张,看完300张CT照片要10分钟,现在把300张CT照片还原为一个肺,看看肺有没有纤维化,看看肺周边怎么样,这样有很好的支撑了医生对这个病人状况的了解,这就是一个数据易理解性的例子。

这里面左边是前年,右边是去年,基本上是一年前了,我们现在两年前的样子。我今年倒不是说要说明疫情对航空的影响,我是说这个实际上就是把所有的飞机的数据链接起来,构成一个全局的观念,这是数据可链接性的一个例子。我们可以拿来对比,发现疫情的影响等等。实际上像智慧城市,我们说建设数字孪生平台,也是一样的,把城市的运行人、物、事件成群化的把它综合到一起来。让我们可以实时掌控整个城市的传输状况。

什么叫数据可信性呢?这个是数据挖掘的过程,先把数据收集到数据仓库,我们要进行数据清晰,这里面要把数据时间的、地点的,以及数据类型的要标注出来。可以看看是不是有缺失的数据,或者看有没有无效的数据,比如说这个房间有很多温度传感器,标注的数据应该出来都差不多,如果有一两个传感器太离谱了,那这就是无效的数据,要去掉。还有数据变化的数据本身,有时候被干扰,跟原来的规律比它偏离了,要去掉。另外可视化,对视频的数据、照片数据,这些都是非结构化数据,要让机器容易识别的话,还要把它降维,变成可读的可理解的数据。还要进行分类,把它分解出来,抽取信息要素,根据我们要挖掘什么要素进行聚类,这个过程是闭环的。我们说的数据可信性,关于数据质量管理,首先是数据清晰。

比如说左下图,我们发现拍摄这个人脸我们要标注这个人是青年人还是小孩,是男性还是女性,他是笑脸还是什么脸,可以猜测他的年龄等等,这是分类左边第二个图是标注,你究竟是看人,还是看房子,这个框的是人,我们标注,主要是分析这个人。第三个是区域标注,在路上可以拍到马路,也可以拍到马路旁边的各种树木,你是看路还是看树呢?这里要有标注,不然的话,他不知道你想要挖掘的是什么东西。最右边的图是关注动作,这里面要标注它的动作,实际上数据挖掘,我们前面有很多预备的功能要做。而现在实际上数据清晰挖掘,现在还是要靠人去做的。我们说人工智能是智力化的集中,实际上人工智能大数据分析,它前端还是劳动密集型产业,只不过是白领的劳动密集型产业,一个城市的视频监控数据,如果直接送到云端分析,会占用大量的资源,现在已经压力很大了,每个城市要存不少东西。实际上视频数据是非结构化的,价值密度并不高,要进行压缩。比如说这个城市在马路上的摄像头,晚上一点钟到凌晨四五点钟,这个路上人也没有,车也没有,你拍的不是浪费吗?加个时间标签,从1点到4点没有变化,一帧就够了。这就是大量压缩。还有一个城市里头,主要关心的不是马路边上的树木和房子,你可能关心的是人,你只要突出这个人就够了,这些都可以压缩。而这些很多工作可以交给前端和边缘计算进行语义的压缩处理,要靠云网边端的形成才能实现价值,错误的数据价值密度很低的,必须要进一步加工,否则质量比较差的。

还有数据的互操作性,我们可以获取很多数据,比如左边意大利罗马,大家去旅游可以拍到很多古建筑,但是古罗马的街景是什么样子的呢?我们可以把古罗马有关的街景合成一个视频,反映古罗马的街景,实际上当年是没有视频的,这些要把所有的照片能合成,这里面涉及到每幅照片的标准互操作,能不能合成在一起,这需要有标准化的工作。

数据安全性,首先数据是生产要素,所以要防止数据泄漏,当然也要防止数据被篡改,我们很多地方,我把数据加密,当然加密是个手段,不过加完密的数据,是比较难进行安全扫描的。另外你以为加密是保护你的数据,坏人也会通过加密来达到他的目的。右图是我们16年2月,一个美国黑客入侵了美国洛杉矶长老会医院,把医院内网上的病例抽出来了,他本来是想偷出来卖钱的,后来发现这个病例是加密的,打不开。他一怒之下,把你加密的电子病例再加密一遍,用黑客的密钥加密一遍,告诉院长你也打不开,院长请了很多网络专家没有破解,没有病例,病人不来了,医生护士也没事干了。医院院长不得以,跟黑客联系,我交钱,黑客说别通过银行转账,我要比特币,因为比特币你不知道我是谁,实际上类似的像台湾的台积电,是做集成电路的,它的工厂里头有生产软件,它的生产软件也被黑客加密了,最后只有交钱,所以在这个意义上,我们城市的数据,你要加密没问题,但是你要防止被恶意再加密。

另外我们数据本身是要融合的,我们城市有很多部委,我们一把手可以命令他们交数据,但是实际上部门之间的数据,也有权限,有些融合了,也不是无条件的公开。再到社会上的数据,企业与企业之间的数据更是如此。A和B这两节数据都希望能够融合,希望得出有价值的东西,如果交给第三方,谁能相信第三方做事那么可靠公正吗?把B的数据给A,B不干,把A的数据给B也不干,现在有一个融合的方法叫多方计算,这是清华大学姚期智院士在美国得图灵奖的时候证明的,他证明把A和B的原始数据都不加来运算是加密以后运算,这个加密有一定的规则,要保证对加密数据运算结果,等效于对原始数据的运算的结构,这叫同态加密,并且要不经意的传送,问A要数据,问A要什么样的数据,B就知道A想干什么的,要什么数据的意图,也不能让A知道,这里面有一种叫不经意传输的技术,已经证明通过密码加密数据的运算,得出的结果,等效于原始数据运算的结果,实际上A和B拥有的数据没有改变,原始数据也没有离开AB所管辖的范围,但是能得到一个大家希望得到的运算的结果,所以这是一种很好的加密方式。它可以通过共同计算结果不透露数据,但是联合计算还有其他方式,比如说我们可信硬件加密,还有联邦计算等等,可以证明这种多方计算理论上是没有问题的,但是现在来看,运算工作量很大,差不多比原始数据还要高10倍。所以还要在方法上要解决降维的问题

数据的资产性。我们要定义数据资产目录,数据管理安全管理,把原始数据变成可管理的资产,同时也要保证安全性。那么一个数据本身一开始原始数据,很难说它有什么价值。所以数据需要通过开发来变现,也就是说我们工业的数据,我们从数据采集,通过边缘控制,风控系统传感器等收集,到S层,虚拟化的资源池,服务器存储器。还有云平台上的PaaS层,这里面有各种大数据分析的软件和人工智能分析的软件,作为工具软件可以支撑我们很多大数据人工智能专用的算法的开发,对于很多企业来讲,中小城市不见得会开发,这个时候直接提供SaaS层,有很多智慧城市管理软件,还有特定场景APP,通过这些操作我们才能产生大数据的价值,所以数据价值是开放来变现的。

交易的定价不取决于采集和清晰工作的复杂度和成本,哪怕你说我花了上千人去采集清晰,这个不能说你人多了,交易的时候价格就高,并且和数据规模大小没有直接比例,你说我的数据量非常大,所以我要卖更多钱。这也不对,这个由需求来决定,你这个东西部符合需要,你再多的数据,前期你做了更多的挖掘清晰工作,那也没价值。所以没有人要,有什么价值呢?所以我们很多城市存在大量数据,如果没人要,你存的是垃圾。所以在这一点上,我们要明确数据的资产,它主要是什么的问题。数据的归属性,数据所有权,指的是有对相关数据的支配、处置和获益等财产的权力,表现为同意权、知情权、纠错权、司法救治权。明晰产权是建立数据流通规则和秩序的前提。用户对原始数据的所有权是归用户的。右图我们在城市里头,我们说有很多数据获取了很多城市的数据,中国的人脸识别水平是全世界最高的,因为中国有14亿张脸,而且中国到目前为止,还没有任何限制采集人脸的法律,到银行,到宾馆都要采集。当然这个采集的数据所有权是用户的,即便我们现在手机上经常说,要收集你的通信录,收集你的照片,你同意不同意?当然不同意,APP就运行不了了,即便是用户同意,同意也并不意味着用户把原始数据的所有权转让了,所以这一点我们所有收集用户照片的企业都知道,你别以为靠用户点击同意了就意味着你获得了所有权,没有,我们收集在使用后应该删除原始数据,这属于数据的遗忘权。

当然数据处理方虽然不能获得用户原始数据的所有权,但是它是具有有限的所有权,为什么呢?因为原始数据经过资产化和价值化以后,特别是通过匿名化以后,经过挖掘提炼而增值了,所以新增的价值,这方面挖掘方是拥有所有权的,一般来讲,政府的数据能公开就公开,我们说曾经多年前我看一个地方,他说我建立一个交易所,我说你交易什么数据,交易都是政府的数据,我说你不对,政府的数据既然能拿给你交易,就意味着公开,公开的数据是免费的,为什么只能授权你来做?所以交易所交易的数据,你不能直接把政府给你的数据交易,你可以做什么工作呢?把政府的数据再加工,挖掘,这里面你付出了劳动,这里面你有你的价值。

但是要注意到,这里面对于用户数据的保护,我这里举欧洲的GDPR为例,它定义的个人数据范围是很宽的,包括邮件地址,手机号码,身份证、住址等等,都是个人数据,如果你的数据控制者,或者处理者,在使用中涉及到个人数据,如果没取得个人数据的许可,你就违规了,并且你必须在使用后删除这个数据。欧洲这个法律是强制管理的,不限于管欧洲的企业,也管欧洲之外,比如说腾讯、阿里,假如说我的微信用户发展到欧洲了,欧洲有你的用户,自然在微信中腾讯管理平台肯定获得了个人的数据,这个时候你必须得到个人同意,并且使用后要删除。如果违规是什么呢?违规处罚是你当年全球营业额的2%,如果严重一点就是4%,4%是多少?前不久国家市场监督管理总局罚阿里,2019年营业额的4%,182亿,欧洲这个管理,当然不是完全针对中国企业,是针对美国,使得中国互联网企业根本就不敢走出去。关于中国目前个人数据管理还没这么严厉,应该重视个人数据的保护。

另一方面,对数据所有权也要反垄断,某些数据的收集具有唯一性和不可重复性,比如说我们手机上都利用了航空的数据,航班,原来非常准,现在没了,现在从另外一个地方出来,为什么呢?这个数据要从民航获取的,但是这也是公共数据,你既然能给A公司,就应该能给B公司,可是现实上,它只给了A公司,这就属于垄断。公共数据不应该垄断,防止数据被垄断。

数据的开放性。政府在行政执法过程中产生的信息,涉及到企业和公众在生产、经营、履约的利益,这是政府收集的,所有权属于数据的收集方,就是政府,即便是属于政府,也要开放的,减少社会搜寻信息的成本。

另外叫数据公共资源。是无主体指向的数据,比如说气象数据,城市交通数据,这不是针对某一个人的,这个当然也是数据持有方来收集加工处理的。除非涉及到社会稳定和国家安全,这些数据也应该向社会公共开放,来降低社会信息收集成本。所以我刚才说,把交通数据可视化以后向社会开放,这应该是政府的职责,而不是你的恩赐。

开放数据要保证真实性、时效性、歧视性、隔离性、脱敏性、标识性,真实也就是你不能开放假的数据,我们现在看一些政府公开的数据,前年的数据,去年的数据都不公开,就没时效性,非歧视性,你要保证给张三开放就应该给李四开放,另外非歧视性,还有一个方式,你需要降低数钻结构门槛,不是说只有研究生博士生才懂得怎么接入,甚至把大家可接入的方法都公开出来。数据可解释,还要脱敏的,我举的是中国联通的例子,他收集了大量的用户数据,这个所有权是用户的,里面涉及到用户的隐私,不能公开出来,但是它可以进行挖掘,这种挖掘包括脱敏、隔离、标识、授权、审批,得出一些有用的结论,中国联通曾经通过接受了上海大众汽车公司的委托,他让联通说你从你的用户里头发现什么年龄段的用户会对汽车类型有什么不同的需求。对汽车的档次,汽车的价格,包括内装修的要求,中国联通通过数据分析,把不同年龄段对汽车的需求。做出了一个报告,这个报告交给了上海大众,联通把这个报告给我看了一下,大概是100页的PPT,我说你怎么收费?他说一页一万,封面一万,后面线性一万,中间没几个字的一万,我说你收费够贵的,对方觉得很好,他拿不到这个数据,这个数据真是用户脱敏获得的数据。所以我说用有用户所有权的数据,并不是不可以开放,但是是保证国家安全情况下开发。

最后智慧城市产生大数据,城市政府掌握丰富公共数据和大量高度隐私的公民数据,既是社会数据开放与个人数据保护的重点,也是国家数据价值的密集地。

数据的挖掘和保护是要重视数据属性的利用,通过标准化支撑多源异构的数据融合,从而更大程度激活数据的价值,发挥数据作为城市要素和生产要素的作用。

数据的挖掘和保护更需要法规的保障,要依规有序促进数据开放共享和隐私保护,既要规范企业对数据的利用,也要维护公民的权利。

数据标准化和法制化既需要技术创新,也需要管理创新。

 

i城市,建设城市数据专区

i城市,让数据实现价值

i城市,让数据驱动服务

i城市投资合作计划,根据具体需求,有以下四种类型:

一、标准型 :数据应用平台+N社会应用。

二、高级型 :数字底层平台+数据应用平台+N社会应用。

三、全量型  :数字底层平台+数据应用平台+政府应用+N社会应用。

四、一体型  :大数据中心+数字底层平台+数据应用平台+政府应用+社会应用。

2021年5月10日 17:25