当今世界,科学技术进步日新月异,互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式。信息技术与经济社会的交汇融合引发了数据爆发式增长,数据已成为重要生产要素和国家基础性战略资源。近年来,国家统计局颁布了一系列推进大数据应用的重要举措,确定了“总体设计、牵头攻关、先易后难、专业突破”的总体思路和“打造中国政府统计数据来源第二轨”的工作目标,稳步推进大数据政府统计中的应用,快速推进大数据与政府统计工作深度融合。
大数据(Big Data)被认为是新型战略性资源,可以帮助实现对经济社会持续健康发展的全方面展现、精准预测和智慧决策。当前,对大数据的概念已经基本形成共识, 尽管在某些细节上还存在一些争议。中华人民共和国原国家质量监督检验检疫总局和中国国家标准化管理委员会于 2017 年 12 月 29 日发布了《信息技术 大数据术语》的国家标准(GB/T 35295-2017),并于 2018 年 7 月 1 起正式实施。该标准指出,大数据是“具有体量大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据”。这种针对信息技术领域对大数据给出的定义,可当作其他领域的重要参考。对政府统计而言,大数据通常被认为是采用多种数据收集方式、整合多种数据来源的数据,是采用现代信息技术和架构高速处理和挖掘、具有高度应用价值和决策支持功能的数据、方法及其技术集成。
第二,应用价值巨大(Value)。大数据经过有明确的目的性地搜集、清洗、分析后,对政府决策、企业经营和大众消费等都具有应用价值和支撑作用。大数据和传统数据如果能做到深层次地融合、有机结合,可能会产生新的信息和知识。运用和处理大数据就是要通过强大的机器算法迅速地完成数据的价值“提纯”。
第三,数据类型繁多(Variety)。大数据最重要的包含结构化数据、半结构化数据和非结构化数据, 如音频、视频、图片、网络日志、地理位置信息等多种类型的数据。非结构化数据占比很高且不断增大,对常规数据分析工具提出了较大挑战。
第四,生成速度快(Velocity)。大数据往往以数据流形式实时快速地产生。手机、物联网、平板电脑、移动互联网以及各种传感器的广泛深入应用,为提升大数据生产速度提供了便利条件。对大数据的处理需要采用非传统的技术方法, 引入新的基础架构,努力破解快速计算和实时存储相关难题。
根据国家统计局和国家发展改革委联合印发的《非传统数据统计应用指导意见》(国统字〔2017〕160 号),大数据是非传统数据的主体,在很多情形下可以代指非传统数据。具体而言,大数据是指通过非传统政府统计调查获取的数据(国外一些机构也称之为“二手数据”),包括政府部门的行政记录数据、商业记录数据、互联网数据、电子设备感应数据及其他大数据。大数据与传统调查数据存在以下主要差异(见下表):
大数据作为政府统计数据来源的“第二轨”(或新兴之轨),应用领域十分普遍,几乎覆盖数据采集、处理、存储、分析和发布等整个统计过程。近些年来,我国政府统计积极开展大数据应用,取得很明显的成效。在核算、工业、能源、投资、贸经、人口、社会、科技、农业、价格、住户、服务业等领域,广泛使用部门行政记录、互联网电子化数据等大数据作为常规统计调查数据的补充,提高统计调查的最终结果的科学性。将大数据方法应用到数据质量上的问题查找、数据质量审核评估等工作环节, 提升统计数据质量,为遏制统计造假弄虚作假提供新技术新手段,在提升统计数据准确性可靠性方面发挥了非消极作用。利用大数据开展专业统计评估,补充常规统计调查短板,完善统计调查方法,改进数据生产方式,拓展统计调查指标体系, 提升统计调查质量和效能。利用大数据改进数据处理、分析和共享机制,进一步提升开发应用数据的能力,增强统计分析、监测和预警的准确性时效性。整体而言, 目前我国政府统计运用大数据工作已经走在全球前列,和主要发达国家与地区基本站在同一个起跑线上。
当今世界,科学技术进步日新月异,互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式。信息技术与经济社会的交汇融合引发了数据爆发式增长,数据已成为重要生产要素和国家基础性战略资源。近年来,国家统计局颁布了一系列推进大数据应用的重要举措,确定了“总体设计、牵头攻关、先易后难、专业突破”的总体思路和“打造中国政府统计数据来源第二轨”的工作目标,稳步推进大数据政府统计中的应用,快速推进大数据与政府统计工作深度融合。
大数据(Big Data)被认为是新型战略性资源,可以帮助实现对经济社会持续健康发展的全方面展现、精准预测和智慧决策。当前,对大数据的概念已经基本形成共识, 尽管在某些细节上还存在一些争议。中华人民共和国原国家质量监督检验检疫总局和中国国家标准化管理委员会于 2017 年 12 月 29 日发布了《信息技术 大数据术语》的国家标准(GB/T 35295-2017),并于 2018 年 7 月 1 起正式实施。该标准指出,大数据是“具有体量大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据”。这种针对信息技术领域对大数据给出的定义,可当作其他领域的重要参考。对政府统计而言,大数据通常被认为是采用多种数据收集方式、整合多种数据来源的数据,是采用现代信息技术和架构高速处理和挖掘、具有高度应用价值和决策支持功能的数据、方法及其技术集成。
第二,应用价值巨大(Value)。大数据经过有明确的目的性地搜集、清洗、分析后,对政府决策、企业经营和大众消费等都具有应用价值和支撑作用。大数据和传统数据如果能做到深层次地融合、有机结合,可能会产生新的信息和知识。运用和处理大数据就是要通过强大的机器算法迅速地完成数据的价值“提纯”。
第三,数据类型繁多(Variety)。大数据最重要的包含结构化数据、半结构化数据和非结构化数据, 如音频、视频、图片、网络日志、地理位置信息等多种类型的数据。非结构化数据占比很高且不断增大,对常规数据分析工具提出了较大挑战。
第四,生成速度快(Velocity)。大数据往往以数据流形式实时快速地产生。手机、物联网、平板电脑、移动互联网以及各种传感器的广泛深入应用,为提升大数据生产速度提供了便利条件。对大数据的处理需要采用非传统的技术方法, 引入新的基础架构,努力破解快速计算和实时存储相关难题。
根据国家统计局和国家发展改革委联合印发的《非传统数据统计应用指导意见》(国统字〔2017〕160 号),大数据是非传统数据的主体,在很多情形下可以代指非传统数据。具体而言,大数据是指通过非传统政府统计调查获取的数据(国外一些机构也称之为“二手数据”),包括政府部门的行政记录数据、商业记录数据、互联网数据、电子设备感应数据及其他大数据。大数据与传统调查数据存在以下主要差异(见下表):
大数据作为政府统计数据来源的“第二轨”(或新兴之轨),应用领域十分普遍,几乎覆盖数据采集、处理、存储、分析和发布等整个统计过程。近些年来,我国政府统计积极开展大数据应用,取得很明显的成效。在核算、工业、能源、投资、贸经、人口、社会、科技、农业、价格、住户、服务业等领域,广泛使用部门行政记录、互联网电子化数据等大数据作为常规统计调查数据的补充,提高统计调查的最终结果的科学性。将大数据方法应用到数据质量上的问题查找、数据质量审核评估等工作环节, 提升统计数据质量,为遏制统计造假弄虚作假提供新技术新手段,在提升统计数据准确性可靠性方面发挥了非消极作用。利用大数据开展专业统计评估,补充常规统计调查短板,完善统计调查方法,改进数据生产方式,拓展统计调查指标体系, 提升统计调查质量和效能。利用大数据改进数据处理、分析和共享机制,进一步提升开发应用数据的能力,增强统计分析、监测和预警的准确性时效性。整体而言, 目前我国政府统计运用大数据工作已经走在全球前列,和主要发达国家与地区基本站在同一个起跑线上。