面对疫情,大数据派上用场了吗

突发公共事件,是一场城市治理能力大检阅。

近年来,随着我国“智慧城市”建设进程不断推进,如何用“大数据”为公共服务提质加码,是不少城市管理工作者经常会思考的问题。也许正因如此,自新型冠状病毒疫情防控阻击战打响以来,“大数据被充分利用了吗”“大数据可否为疫情防控服务”成为一个关注的议题。

上海对外经贸大学工商管理学院副教授陈瑶及其研究团队多次利用大数据工具,为公共管理、公共服务场景下的大数据应用问题出谋划策、设计方案。突发的疫情、对大数据应用场景的“专业敏感”,让她在刚过去的这个春节始终“闲不下来”。且听她对这个议题的观察与思考——

■就目前我们所处的时间节点而言,大数据应用方向主要包括追踪传播路径、大数据构建疫情发展模型、大数据助力资源配置三大类。

■在“与时间赛跑”的过程中,如果政府把数据开放出来,专业机构把数据开发成各种应用,携手为社会公众带来了收益,实际上,就意味着政府和市场以数据为原料实现了一种合作,充分调动社会上的各种专业力量参与。

养兵千日用兵一时

用了才知用不用得上

解放周一:最近,关于“大数据到底用上了吗”的议论很多。您怎么看?

陈瑶:这样的议论很多,一方面佐证了这些年“大数据”“智慧城市”概念的火热程度,另一方面也显示出在某种程度上,公众对于大数据的期待,跑到了大数据应用现状的前面。

为什么会形成这样的局面?为什么公众的槽点不少,有些吐槽听上去甚至非常切中要害?我的解释是,大数据是一门应用型的学问。养兵千日用兵一时,用不用得上,现实状况是对理想模型最好、也是最严酷的检验。突发事件尤其是突发公共事件,充满了各种不可控的不确定性,很容易就能打到大数据应用的“短处”。

比如,有网友吐槽,现在高铁、机场都人脸识别了,乱穿马路、乱开车的人的信息能在某些道路上被“秒公布”,为什么这次防疫战里还只是用传统方式寻找特定乘客?

对此,我们有必要做出解释的是:一些地方已经使用了大数据辅助手段,但是全国范围的查找有跨部门、跨省市的困难。且大数据应用高度根植于应用场景。防疫战里经常需要寻求解决方案的场景,属于突发公共卫生事件场景,与目前大部分城市大数据应用所着力聚焦的城市日常生活管理场景、基础保障场景差异很大。

突发公共事件,尤其是突发公共卫生事件,在平日里发生的机会并不多、不可控的变量高频次发生、可以通过“实战”来检验算法的时间窗口非常短,很容易让一些常规算法暴露出短板。

又如,舆情数据一个很重要的作用就是预警。但这一次遇到的挑战是,疫情初露时恰逢春节气氛预热的高峰。在那样一种情形下,较小声量舆情的出现,是很容易被淹没的。这给我们提出了一个很重要的课题:特殊情形下,如何从海量数据中发现重要的小样本和“异常事件”?如何让重要的小声响不被众声喧哗“淹没”?尤其在舆情发酵前期,这一点非常重要。但坦白来说,发现重要小样本,在未来很长一段时间,都将是大数据应用领域一个难点。相信此次疫情的爆发,会对相关应用的发展有所推动。

另一方面,目前我国大数据应用发展具有属地化的特点,且总体发展水平参差不齐。哪些城市着重于大数据应用场景研发的企业、团队更多,相应的,这个城市在紧急、应急情况下,可以调用的资源就多;哪些企业、领域平日里积累的基础数据充足、可以合法合规调用共享的数据丰富、算法演练机会多,紧急需求下,可以作为的天地就更大。本次疫情迅速发酵后,一些地方的移动运营商马上可以测算出流动人口的大体流动去向,一些地方开始动用各种线索定位、寻找、联系密切接触者,都是前期积累的结果。

必须说明的是,在城市极为复杂的公共管理场景下,传统人工方法始终不可或缺。技术只是管理工具,核心还是城市管理者和执行者。即便在大数据算法不断优化的未来,唯有不断保持敏锐问题意识、服务意识,对人性充满理解、尊重与关怀,才能充分发现、捕捉到各种应用场景下不断发生着的新问题、新需求。

大数据应用开发的要害:让“巧妇”有“米”可炊

解放周一:近期有哪些大数据应用案例,是您个人比较关注和看好的?

陈瑶:大数据应用有很强的时效性和场景特征。随着疫情发展、疫情防控的发展,每个阶段需要数据挖掘和数据分析发力的点不同。

以此次疫情发生以后的时间线索为例,疫情刚发生时,舆情数据分析可以有所作为,可以帮助公共管理者及时定位把握时势走向的重要线索;疫情状况无法预知时,与时间轴并行的人流迁徙数据是重要预警信息;疫情防控阶段,面向疫情的数据可视化分析与模拟趋势预测是重头。现在全国有很多团队在做基于流行病学调查的疫情趋势预测。这一工作需要用到人流迁移数据,需要将疫情状况的时间序列数据整理成为整个研究的基础数据。

就目前我们所处的时间节点而言,大数据应用方向主要包括追踪传播路径、大数据构建疫情发展模型、大数据助力资源配置三大类。

上月28日,国家卫健委高级别专家组成员李兰娟院士接受央视《新闻1+1》节目采访时表示,他们正与一家专业公司合作,利用大数据技术梳理感染者的生活轨迹、追踪人群接触史、锁定感染源及密切接触人群,为疫情防控提供宝贵信息。这就属于“追踪传播路径”。

就目前已经发布的一些数据分析结果来看,在最近这场疫情防控战役中,通过追踪移动轨迹、建立个体关系图谱,定位疫情传播路径,防控疫情扩散,是大数据最有作为的落点之一。当然,这一切必须建立在用户授权、合法合规使用的基本原则之上。国家网信办也特地发文,强调在大数据支持联防联控工作的过程中,一定要做好个人信息保护利用工作。就我所观察到的情况,现在数据应用开发者们在数据思维和信息保护意识上都有所提升。

以联通旗下的“数据智能服务商”联通大数据为例,1月底至今,一直在不断推出各种数据分析与应用结果。除了联合智慧足迹、京东数字科技集团、京东城市、航班管家发布2020年春节大数据报告,解析全民战疫情形下的春节生活,还推出了可查询近14日是否到达过疫情严重地区的“疫情防控行程查询助手”,面向机场、铁路、车站、海关、医院、学校、商务办公等公共和非公共场合下对异常情况进行实时告警提示的“AI助防”工具(包括口罩佩戴监测、人流监测预警等)。

应用的开发需要立足于具体的应用场景。所以,在看到“疫情防控行程查询助手”这一应用时,我也曾一时纳闷这个应用的具体使用场景是什么、谁会用到这个查询助手。经过了解,我理解了开发者的用心。

原来,这个应用主要针对返工人流而设。扫描二维码,在取得用户授权的前提下,可以精准判断用户14天内是否到达过疫情严重的地区。这样的应用特别适合社区、园区、工厂等地方联防联控重要场景下的精准判断。应用的二维码打印好了贴出来就行,降低了交叉感染的风险。同时,这又是一个“自证神器”,可以免除返工者无法自证来处的尴尬和烦恼。同期,微信、360等互联网平台上线的“确诊患者交通工具同乘查询系统”“疫情数据实时更新系统”“发热门诊分布地图”等功能,都因其实用性、惠民性受到网民们的欢迎。

大数据构建疫情发展模型方面,现阶段,国内外一些研究团队已运用大数据技术搭建疫情传播模型,基于已感染病例、感染患者增速、感染区域、区域交通网格等因素,对病毒的传染源、传播速度、传播路径、传播风险等进行评估、预测。

相比之下,大数据助力资源配置,可能是下一步需要大数据工作者用心着力之处。尽管,此前已有志愿者将企业、组织、个人等在互联网上零散发布的无偿资助信息归集整理,标注联系人、申请条件、服务时间、服务区域等信息后予以展示,但大数据在物资精准管理与投放方面的长处仍有待挖掘利用。电商企业在精准投放与配送方面的丰富经验可以作为借鉴。

当然,做好这一切开发的根本前提仍然是基础数据的积累。经历过大数据应用实战演练的同行都有体会,大数据始于小数据的积累,但大数据绝不等同于无目的、无标准、无规范的海量数据处理。

以公共卫生领域为例。如果要推动大数据应用在公共卫生领域的发展,必然始于基础病历数据的积累。从一个病历开始、从一个医院开始,慢慢地,系统化地进行数据积累,才可能有后期跨医院、跨系统、跨地域的数据共享、数据合作应用开发。换言之,内部数据实时采集、标准化上传,然后基于行业、部门对数据开放与共享的共识,才会有大数据应用更好地为该领域的数据应用需求服务,更好地为该领域的公共管理、公共服务诉求助力。

解放周一:可不可以说,无论是公共管理者、公共服务执行方,还是数据资源的具体持有者,有没有数据利用意识非常重要。那是小数据得以积累成大数据的开端。

陈瑶:是的。大数据应用的未来,始于各行各业各部门将小数据变成大数据的意愿。而这些意愿,最初往往源于管理者、公共服务的提供者,是否想通过一些合理、科学的应用开发,提高管理水平,提升公共服务供给能力。现在我们所能看到的数字化治理方面比较好的做法、案例,大都由“更好地为公众服务”的朴素意愿生发而来。

数据思维和基础数据积累到底是谁先谁后,很难说,但如果没有利用数据的意识和意愿,没有数据思维,一定不会有高质量的数据积累。没有高质量的数据积累,则大数据工作者也会面临“巧妇难为无米之炊”的困境。

数据发布的准确度与颗粒度体现数据思维

解放周一:听说,从春节到现在,您的研究一直没有停下来。基于国际上普遍认为的数据开放基本原则,您和复旦大学数字与移动治理实验室主任、国际关系与公共事务学院郑磊教授,对几个直辖市发布的疫情数据,进行了分析与比较。怎么会想到做这个研究?

陈瑶:郑老师是政府数据开放领域的专家,我们在研究如何让大数据应用为数据开放服务、提升政府治理能力方面,有长期的合作。

整个研究的初心其实很简单,就是我们作为普通老百姓,希望跟踪了解整个疫情的发展。比如,我们想知道,自己所在的城市今天有多少确诊和疑似病例,病人多大年龄,他们去了哪个医院,那些疑似病例后来确诊了吗,如果确诊不是新型肺炎,他们得的又是什么病。虽然我们也从网上和自己的朋友那里得到各种消息,但这些消息是真是假,我们需要最新的、准确的官方数据来提供佐证。那是最权威的。

出于大数据一线工作者的敏感,我还会关注,如何利用现有的数据资源和官方发布数据,开发可以利用的应用工具,也许可以预判趋势,也许可以是增进某些工作环节的能效。

各地方的卫生健康委员会是权威的疫情数据发布部门,所以,1月29日前后,我们就选取了四个直辖市的卫健委官网,想看看这几个特大型城市面对疫情时发布了哪些数据,具体包括哪些数据项(字段),这些数据是以怎样的方式发布、以怎样的形式呈现。慢慢地,我们形成了一套对各个直辖市疫情数据发布情况进行分析的方法。

比如,我们会去关注,卫健委官网有否在首页显著位置开通与疫情防控相关的专题栏目,有没有对疫情发展、防控工作、新闻报道、防护知识等内容进行专题发布,便于公众发现和访问;疫情通告文件发布的规范性做得如何,是否便于搜索查找;怎样的疫情公布数据方式,最容易被民众看懂和利用、利于数据分析人士进行延伸开发。

举个简单的例子。在疫情公告发布伊始,各直辖市都在官网上提供了文字形式的疫情情况通报。虽然大家展示的疫情数据都足够详细,但大部分数据是以夹杂在文字中的形式出现的,不够清晰直观,不便于普通读者阅读和理解,也不利于专业人员进行分析利用。如果想对这些数据进行一些分析,需要先将数据从这些文字中提取和整理出来,做成数据表。对比数据开放的基本原则来看,这种将数字夹杂在文字中发布的方式还未能真正进入数据时代,缺乏数据思维。当然,后来有些城市使用了结构化表格的形式来辅助疫情数据发布,在发布数据时也愈发注意用词标准并配备详细、准确的备注说明。这些努力公众都是马上能感受到的。反之,会使公众无法准确地理解和利用数据,甚至产生误读或误用。

我们最近还在分析全国的数据,已经看到了各地在疫情通报方面的不断改进与完善。

解放周一:在你们看来,数据发布做得如何很有门道,也是公共管理者数据思维的一种体现。

陈瑶:没错。传统的信息公开主要以非结构化的、文本的形式提供,便于公众阅读。而在大数据时代,提供结构化的、可机读的数据,有利于公众对数据进行分析利用。而这,正是数据开放和传统信息公开之间的一个重要区别。

当然,各种数据利用研发团队或机构,可以花精力做数据整理,但假设政府部门能把符合标准的、优质的疫情数据开放出来,研究者就可以把精力集中在将数据应用做得更好用、更细致,给公共管理者提供更好用的治理辅助工具,给民众带来更好的使用体验上。面对疫情的不确定性,大家都可以拥有更多“与时间赛跑”的资源和底气。

在“与时间赛跑”的过程中,如果政府把数据开放出来,专业机构把数据开发成各种应用,携手为社会公众带来了收益,实际上,就意味着政府和市场以数据为原料实现了一种合作。毕竟,应对疫情不能只靠政府一方来孤军奋战,还应充分调动社会上的各种专业力量来积极参与。

需要特别强调的是,开放疫情数据的同时,还应严格保护好病人的隐私。一方面要满足公众的知情权,尽可能地将公众关心的数据全面、及时、准确地发布出来;另一方面,也要严格保护患者的隐私,防止个人数据的过度披露对患者造成伤害。政府部门需要把握好保障公众的知情权和保护病人的隐私之间的平衡。

总之,在大数据时代应对疫情,政府应围绕公众的数据需求,从“用户”的视角出发,将疫情数据以完整的、标准的、一手的、及时的、细颗粒度的、结构化的方式开放出来,并提供便捷的方式,配备必要的描述说明。这么做,不仅便于普通公众查找、获取和理解数据,也利于社会力量对数据进行开发利用。信息公开也有助于消除公众恐慌、压缩谣言空间,提高疫情防控的社会警觉和参与度,提升政府公信力,释放出数据的社会价值。
 

相关产品

评论