当前位置:首页 行政改革网络文摘 正文

大数据与政府治理能力现代化

发布时间:2017-07-10

【大数据与政府统计】

大数据时代政府统计转变及思考

赵英姝  戴明锋

“大数据”从2009年开始预热,到今天引起各行各业的广泛关注,从最初商业部门应用大数据到今天政府部门也在积极部署大数据战略。2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。2012年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。我国政府也在积极地布局大数据,2014年7月—2015年9月一年多的时间里,国务院常务会议至少八次将大数据作为主要议题之一,2015年9月5日,国务院发布了《促进大数据发展行动纲要》(以下简称《纲要》)系统部署了大数据发展工作。《纲要》提出从政府大数据、新兴产业大数据、安全保障体系三个方面着手推进大数据领域十大工程建设。要全面推进大数据发展和应用,加快政府数据开放共享,深化大数据在各行业创新应用,通过建设数据强国,提升政府治理能力,推动经济转型升级。此外,《纲要》还提出,要在2017年年底前形成跨部门数据资源共享共用格局,在2018年年底前建成国家政府数据统一开放平台。政府部门掌握着大量的数据,如何利用这些数据是一个非常有现实意义并值得深入研究的问题。

一、大数据在国内外政府统计中的应用

大数据目前很火热,尽管很多都是概念性的东西,真正落地的不是不多,商业应用取得了一定的进展,政府部门利用大数据的并不多,目前属于起步阶段,但很多国际组织、部分国家及跨国企业等已经开始积极探讨大数据在价格、就业、农业、人口、税务、卫生、交通运输等领域的统计应用。

(一)大数据在价格统计中的应用

1.基于Twitter数据对价格的调查。联合国全球脉冲与一家叫作CrimsonHexagon的社会媒体分析公司合作,分析了美国和印度尼西亚1400万Twitter用户中与食物、燃料和住房相关的数据,以更好地理解人们的关注点。分析者以“负担”等为关键词,根据人们交谈主题和关键词数量的变动研究人们的行为特点,结果发现,印度尼西亚Twitter用户提到大米价格的数量变化与官方公布的实际食品价格通货膨胀指数密切相关。

2.利用超市、商场和卖场的商品结算信息实现CPI采价。长期以来我国的CPI调查采用的方法是在全国按统一的方法随机选一些调查点,调查员上门调查的方式。现阶段国家统计局正在研究通过网上的交易数据、通过电商企业的数据来补充和完善,这样可以大大减轻基层统计调查员的负担。阿里网购核心商品价格指数(aSPI-core)就是根据零售平台上近100000种核心商品作为固定“篮子”,每月追踪该特定篮子内商品和服务所需价格变化,体现网购市场价格相对于宏观经济的敏感性,虽然与国家统计局每月公布的CPI还有些差异,但是也让我们看到了大数据在实时CPI采集中的重要性。

(二)大数据在失业率调查中的应用

对失业率的调查一般都是劳动力抽样调查来统计,在美国也可以根据领取失业救济金的人数来推算,我国长期以来公布的失业率主要是城市登记人口的失业统计。这些方法速度慢,不能及实地反映真实的情况。在大数据时代,可以根据社交平台上面产生的数据,分析失业情况。联合国全球脉动计划和SAS公司针对近些年社会媒体的相关数据与美国、爱尔兰的失业情况进行分析后发现,在爱尔兰,博客、论坛和新闻中与失业相关信息数量的增加,比官方公布失业增加的时间提前了三个月,在美国,失业高峰过后的两个月内人们谈话中涉及失去原有住房条件的内容会明显增加。

(三)大数据在农业统计中的应用

在农业统计中,探索利用遥感技术+移动通信,把高铁等交通工具上照相获取的信息数据,应用于农产品的种植面积测量。利用卫星、航空等高分影像,对于具有空间特征的调查对象,如农作物种植地块、住户居住区等,结合普查信息,构建空间抽样框,如地块抽样框、住宅抽样框等。采用空间或概率抽样方法抽选样本,对样本采取遥感、无人机观测、在定位导航系统支持下的手持设备调查,未来加上移动调查车等。调查对象可见、可定位;调查过程可监测、可跟踪、可检查。

(四)大数据在人口统计中的应用

近些年,在国内如北京、上海、广州、深圳等经济发达的地区,对人口实施网格化动态、无缝管理,为人口普查和抽查统计提供了便利。公安部联合民政部、教育部、人社部、卫计委建立全员人口信息库,里面涵盖了出生、教育、就业、死亡等多项信息,通过这些信息,就能很快地统计出人口的变动。大数据在人口统计中还有一个重要的应用就是对流动人口的统计,以前由于通信不够发达,对流动人口的统计只能通过抽样调查的方式来统计,而现在可以通过采集手机信号的变化,就可以分析出流动人口的流动情况。比如统计北京市的流动人口,可以通过对各交通枢纽区(火车站、长途汽车站、飞机场)等周边地区手机信号的解析,了解到每天出入北京市的外地人口数量。虽然通过移动基站得到的信息无法区别这些外地人员是进入还是离开北京市,但离开的人员必定是先前进入的人员。

(五)大数据在公共卫生统计中的应用

自从2003年爆发SARS之后,疫情的发生受到了前所未有的重视。从最初的人工报送、电话报送发展到现在的网络报送。随着互联网技术的快速发展和社交网络的广泛应用,使得互联网络中充满了人群社会化活动的大量非结构化公共卫生信息。如何利用这些海量的、价值低的、动态的信息,是公共卫生监测大数据应用的新需求。

美国在预防动物疫情领域采用海量传感器数据就是一个典型的例子。2004年,美国联邦政府农业部启动了“全国动物身份识别系统”,为全美的新牲畜建立档案,并配置射频识别耳标。这种耳标应用了射频识别标签这一新的无线传感器,它具备无线存储、发送和读写数据的功能。联邦政府农业部通过这种移动传感器对牲畜进行连续跟踪采集数据,建立牲畜信息数据库。若家畜疫情爆发,就能通过数据库查找传染源头,确定传染地区。谷歌公司2009年利用5000万条美国人最频繁检索的词条,成功地预测了流感的发生。

二、大数据时代政府统计面临的挑战

大数据时代,机遇与挑战并存,社会各界对数据质量和数据发布的及时性有了更高的要求,统计方法制度、数据处理能力、数据发布方式、人才需求都面临着新的挑战。

1.统计方法制度的挑战。大数据时代,统计工作进入到一个新的维度,数据采集渠道增加,统计部门将不再是唯一的数据生产部门,网络数据对官方统计数据产生了重要影响。印第安纳大学利用谷歌公司提供的心情分析工具,从近千万条网民留言中归纳出六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。美国麻省理工学院对全世界海量网上零售价格进行价格指数计算,计算出“每日网上价格指数”,比官方公布的月度膨胀数字提前一周,而“每日网上价格指数”每天更新,且月度滞后期只有三天。这使得研究人员和政策制定者在官方统计数据发布之前就能够判断价格涨幅形势。2008年,阿里巴巴基于淘宝网、天猫网、支付宝等网络平台推出国内首个网络购物消费价格指数(ISPI),随后又公布了网购核心商品价格指数(aSPI-core),从另一个角度反映了CPI的变动。随着大数据、云计算技术的成熟,传统统计的调查内容、调查对象、收集渠道将会发生变化,目前的统计体系和方法制度将不能适应新时代的要求。

2.数据处理方法的挑战。在传统的政府统计中,主要针对的是结构化的数据,而在大数据时代,非结构化、半结构化的数据将会越来越多,网络在线文本、社交平台数据大大拓宽了统计机构收集数据信息的渠道。物联网的发展将使生产、运输、消费、客服等各种过程直接产生数据。比如,在大数据时代可以实现对超市收银系统、ETC电子收费系统、导航系统、交易行为、社交平台等采集到的数据进行分析,这些大数据如文本、图片、图像等,多以非结构化和半结构化为主,传统的数据处理能力将无法应对,必须在现有的结构化数据处理方式下,建立研究非结构化的数据处理方法。

3.数据发布方式的挑战。面对源源不断产生的大数据,政府、企业,甚至个人都可以收集、分析、发布结果。而统计部门还没有制定对公共领域数据收集的准则来规范民间收集、发布统计数据的行为。另外,统计部门还需要建立完善对企业和民间发布指数进行审批或评级的机制,而目前我国政府统计部门有对地方统计制度和部门统计制度进行审批数据发布的机构和职能,但对企业和民间发布指数还没有强制审批的规定。

4.人才需求的挑战。大数据人才属于高端人才,目前全球范围内都存在短缺现象。各个国家和地区都紧缺。大数据人才需要具备计算机、数学、统计学、商业智能、数据挖掘等多项知识,需要宽广的知识面和敏锐的数据洞察能力,作为一个成功的数据科学家,还应该具有丰富的实战经验。政府部门在以往的行政记录中积累了大量的数据,如何挖掘这些大数据背后的价值是所有政府部门面对的问题,毫无疑问需要这方面的人才,据Gartner预测,2015年,全球将新增440万个与大数据相关的工作岗位。大数据的发展也会催生出一些新职业如大数据分析师、首席数据官等,而这方面的人才更加缺乏。

三、建议

大数据时代是一个必然趋势,对于政府统计部门来说应该要积极应对。首先,要积极制定在统计中应用大数据的规划,规范大数据利用标准和分类,明确各行业、各部门在统计中利用大数据的分工和职责,促进各部门之间的信息共享。其次,加强大数据应用的法制保障,明确政府统计部门具有采集、使用和发布统计数据的职责;明确各部门的权利义务。规定各政府职能部门、企事业单位、民间机构有义务依法向政府统计部门提供行政记录、商业记录等重要的电子化数据信息;要积极吸取国内外大数据应用较好的政府部门及企业的经验,推陈致新。最后,要重视大数据分析人才的培养和引进,加强政府统计系统的队伍建设,加强培训,优化现有统计人员的知识结构,同时也要考虑从国内外招收和引进大数据分析人才。

(作者单位:齐齐哈尔大学经济与管理学院;国家卫生计生委统计信息中心)

(摘自: 2017年2月15日《中国统计》)


大数据在政府统计中的应用

王振杰

政府在统计工作的开展中,依靠传统的数据统计手段需要耗费大量的人力、物力、财力,且效果不佳。为提高统计效果及质量,做好互联网大数据在政府统计中的应用则势在必行。

大数据在政府统计中的应用路径分析

1.经济发展中的使用

以往官方都以月度、季度等对各项经济指标进行统计,通过GDP、采购经理指数、社会消费零售额等对经济发展状况进行分析;现如今,互联网企业能够利用大数据实现所有经济指标的搜索与完善,使其在第一时间对国民的经济运行情况进行展现,让宏观经济监测及时性、可靠性及覆盖面积得以提高,同时也为宏观经济部门对未来经济的发展行情、预测等提供了数据支持。

2.统计人口

以往政府进行统计人口的时候,需要消耗大量的人物财,才能完成普查,并获得数据包括全国和地区人口数量、城市和农村人口数量、人口性别比例、人口地域分布、年龄结构、出生率死亡率等;若使用互联网,将极快的获取PC端及移动端网民所在的地域、性别等数据,同时还可以通过对网民行为的研究,得出其消费的能力、兴趣爱好等特征。

3.旅游管理中的使用

以往政府部门都是在旅游结束后,对旅游总量进行事后统计,但是引入互联网大数据后,可以通过对网民旅游出行路线的搜索,大致预测网民旅游的趋势。然后,利用对网民热搜旅游关键词与实际出游人数数据进行分析,对未来旅游景点的人流状况进行预测,从而帮助旅游管理部门预测未来旅客数量,完善疏导、突发事件应对方案的制定。

4.社会就业中的运用

以往政府部门都利用毕业生人数增长数量与劳动力需求增长状况的数据比较,分析就业形势。但引入互联网大数据后,就可以利用对网页搜索关键词趋势的研究,了解毕业生就业需求与压力所在。例如,通过对“找工作”一词的搜索数量变化,掌握毕业生求职需求,从而填补人社部数据空白,掌握社会就业需求及就业趋势,做好政策的制定与微调。

5.价格统计中的运用

以GPI统计为例,价格统计的最新数据来源包括互联网企业数据、电子商务交易数据等,相关数据具有量大、更新速度快等优点,做好相关数据的使用,将进一步减少统计开支,增加指标发布次数。一般可通过以下三种方法利用大数据完善价格统计工作:一是采用搜索方式收集网上交易价格数据;二是与电子商务企业进行合作,获取交易价格数据;三是建立商场、超市、医院等实行电子计价的采价点向统计部门报送交易记录的制度。

6.医疗卫生中的运用

以往政府部门多利用对医疗机构的个数、就诊人数及次数等事后数据,对医疗服务状况进行研究,但引入互联网大数据后,可以使用在线数据对疾病发展趋势进行分析。通过对热搜关键词的研究,组建大数据模型,实现对某区域未来疾病动态数据的预测及各城市热点疾病的重点治疗医院进行排名。通过互联网搜索大数据的使用,将提高卫生监测部门对流行疾病发展状况的掌握程度,使其可以提前做好预防策略的制定,完善热点医院的管理督查工作。

使用互联网搜索数据对房地产价格进行预测

国统局通过对北上广、南京、西安、沈阳这6大城市的二手房价格的百度搜索数据为依据,对我国大中型城市的二手房价值销售指数、影响变化因素进行了预测建模分析。从而得出了每月与上月的新房与二手房价格变动指数。通过科学收集数据,六大城市的二手房与新建房销售价格指数均是解释变量。

二手房与新房价格有关关键词的网络热搜指数被称为解释变量。一般对关键词的选择需经历三步:第一步,以购房人购房决策时关注的主要内容进行关键词初步确定;第二步,利用百度搜索引擎的关键词自动推荐技术,得到与二手房价格相关和新房价格相关的关键词,剔除重复和数据量较少的关键词,组成关键词库;第三步,对关键词和房产价格指数相关性关系进行研究,实现关键词的筛选。通过多重筛选,选出了对二手房价格变动影响最大的12个关键词和对新房价格变动影响最大的8个关键词。变量的关联性可使用数据挖掘技术探查,经研究,预测效果最优的是支持向量机和随机森林模型,而二手房与新房价格网络热搜关键词则是宏观经济形式与房产政策。所以,使用网络热搜数据,不仅可以有效预测房价变化,还能掌握经济主体的发展规律与趋势。

对大数据在政府统计中的应用展望分析

1.使用互联网搜索指数建立雾霾和环保关联性指数

通过构建雾霾与环保关联性指数的方式,对城市的空气质量及雾霾与环保出行指数进行研究、呈现。然后借助合理手段,宣传低碳理念,将提高群众对雾霾的重视与出行行为的调整力度,同时也有助于政府部门了解“市民对雾霾及环保的关注度”。

2.通过分析互联网购物搜索数据对居民收入进行预测

统计资源的重要组成部分就是住户收支数据,由于个体会利用网购的方式在互联网中留下热搜数据,所以可以通过对网络搜索内容的研究去了解居民的关注热点,然后对居民的收入水平进行推算、预测。接着基于居民家庭消费特征,建立科学的收入测度模型,从而提高统计数据质量的控制效果与预测准确性,为政府宏、微观政策的制定提供数据支持。

结语

采用科学的方法对互联网中不同含义的关键词进行筛选、统计、建模、分析,所得的数据才有助于完善政府统计数据的准确性。因此,做好大数据应用方法的科学探索与应用,将为政府宏、微观决策的制定,提供可靠而科学的信息数据。

(作者单位:邢台市清河县统计局)

(摘自: 2017年4月1日《中国管理信息化》)