现代信息技术的快速的提升,为价格统计调查工作带来了全新的机遇和挑战。价格统计因网上电子商务活动的蓬勃发展有了更丰富的数据源,也因爬虫技术等的出现有了新的数据采集手段。本文主要基于政府统计部门组织并且开展的居民消费价格调查,以网上飞机票价格采集为典型案例,探讨如何将爬虫技术所获取网上价格数据更好地应用于居民消费价格调查(以下简称“CPI”调查)和居民消费价格指数(CPI)编制中,并尝试形成一套行之有效的方法,为推动新形势下价格统计创新发展提供有益借鉴。
随着现代信息技术加快速度进行发展,居民消费模式发生巨大变化,线上消费蒸蒸日上。据国家统计局多个方面数据显示,2017-2020年,全国网上零售额年均增长19.3%。网上交易规模的不断扩张产生了大量的交易数据,这一些数据按照一定的结构和排列方式被存下来,形成了巨大的数据资源。随着网上交易的持续增长和技术的慢慢的提升,将网上交易价格数据纳入CPI指数编制成为更全面、科学地反映价格变更趋势的必然要求。目前,我国居民消费价格调查虽已将部分商品的网上交易价格纳入统计中,但主要是采用人工采价的方式,与庞大的网上交易价格数据相比,调查的规格品不够多,对现有数据资源利用率还不高。因此,在现行的价格统计制度下,怎么来适应网络经济发展更好地利用网上交易价格数据,进一步提升居民消费价格调查的效率及科学性,成为政府价格统计亟须解决的问题。
利用网上数据对于价格统计工作具备极其重大意义。一是网上交易价格数据具有可获得、信息量大等特点,有助于适当增加价格调查内容和提高采价效率,进而提高调查的精准性。同时,网上交易价格因电子商务活动特性波动频繁,人工甄别剔除非价格因素较为困难,直接将其应用于CPI指数编制也面临一定的挑战。研究形成一套将网上交易价格数据科学纳入CPI编制的方法和工作流程具有较为重要的理论意义。二是近年来爬虫技术快速地发展,为高效获取和利用网上交易价格数据提供了技术支撑。与人工采价相比,以爬虫技术获取的网上价格数据做为CPI编制的数据来源,能够减少人工网采误差,丰富数据来源,提升统计效率,对促进政府价格统计加强完善发展有着重要实践意义。
本部分以飞机票为研究案例,采用定性分析与定量分析相结合的方法展开。一是采用文献分析法和定性研究方法,通过对国内国际有关的资料的分析,对有关飞机票经营公司做调研,梳理现有研究成果,为本研究确定研究对象、研究路径和方法等提供有益的借鉴。二是采用实证研究、对比分析等方法,分析爬虫技术获取的网上飞机票价格数据特点和规律,结合实际从操作层面探讨爬虫技术获取的网上交易价格数据在CPI统计调查中的应用方法。
飞机票的定价机制分为政府指导价和市场调节价。政府指导价根据《民航国内航空运输价格改革方案》及一系列调整价格方案制定,航空运输企业在境内外销售国内航线客票时,将以平均每人每公里0.75元作为国内各航线%、下浮不设限基础上自行定价。市场调节价由航空公司依据市场和竞争情况自行制定,但需报备民航局,民航局对每个航季可调整的市场调节价航线条数和调整幅度均有详细规定。航空公司在制定国内机票价格时实行多等级票价管理,通过收益管理中的舱位开放,最终决定市场上的售卖价格,即在全票价基础上每个舱位定义不同的票价折扣。
飞机票销售模式分为直销和分销。直销是航空公司通过自建渠道直接销售。包括官网、旗舰店、APP、呼叫中心和柜台;分销是通过第三方渠道销售,包括各家OAT、差旅管理公司、批发商、普通代理人等。相对于直销模式,各大分销公司不仅提供了优惠的价格和跨航空公司的比价选择,还推出旅行套餐和团购服务,广受消费者的青睐,市场占有率也一度达到90%。“提直降代”政策出台后,很大程度上限制了机票分销模式规模,目前直销和分销的占比接近4:6(国内票)。
影响飞机票价格的重要的因素为供需关系。以供需关系为基础,区分航线、季节、时刻、服务等,进行差别、动态调整舱位开放,体现在市场上同一航线同天不同时刻、同月不同日期、同年不同月份,销售价格不同。
影响供求关系的长短期因素分析。长期看,市场上的运力投入、人口总量及经济因素是影响机票价格变革的重要的因素;短期看,各航空公司在运力投入基本稳定前提下,高铁、公路等替代品价格、消费者偏好及预期等因素是影响飞机票价格变革的重要的因素。其中,消费者需求可分为因公和因私,因公消费特点体现为购票期比较临近出发日期,短航线 天内,长航线天内,对价格不敏感,主要关注时刻、服务,对航空公司忠诚度较高。因此,在因公客源充足的京沪等干线天内的价格明显提高。而从周期上看,周六因公客源少,为全民航价格洼地。因私消费特点体现为购票期相对出发日期较远,但疫情后因私客源的购票期较疫情前也更为临近,价格敏感,对航空公司忠诚度低,节假日出行集中,因此春运、国庆、五一等节前、节末高峰都出现一票难求现象,机票价格居高不下,而节中错峰出行则可购到优惠票价。
综合以上对飞机票价格特点的分析,可得出飞机票价格表现为长期大振幅和短期高频率的特征。一是机票价格具有高度的时间敏感性。购票提前量对机票价格影响较大,一般来说,购票日期距离出发日期越远,价格就越低;临近起飞日期,机票价格会大面积上涨,这种价差有时能达到数倍。二是机票价格具有较强的需求敏感性。由于机票属于高固定成本、低边际成本商品,且短期(或单一班次)供给弹性几乎为零,当需求量处于低位时,航空公司只能大幅度降低价格,以确保足够的上座率来收回航班的成本;当需求增加,特别是遇到旅行旺季和重要节假日时,航空公司会大幅度的提高价格,以赚取更多的利润。三是机票价格具有积极的竞价敏感性。由于机票市场的高度信息化和透明化,乘客很容易进行比价,从而“用脚投票”,这导致各航空公司对于竞争对手的价格调整异常敏感。以竞争为导向的定价方法有随行就市定价法、差异定价法等,虽然策略不同,但都会用很快的速度做出调价反应。
消费者对飞机票的购买行为一般为提前一段时间,因此在爬取飞机票价格数据时需提前一段时间符合客观实际。距离起飞日期时间远近不同,飞机票价格将出现差异。因此,在研究飞机票价格变更规律时必须将消费者购买机票的提前时间作为限定条件。此外,根据第三方公司反馈,在爬取飞机票价格数据时受到服务器等资源的限制,耗时较长,采集一次数据甚至要用一天的时间。为减少服务器资源占用,提升统计效率,需通过对飞机票价格运行特征的研究,从全部大数据中选定部分数据来代表全部数据的运行特征。实证分析的最大的目的,是寻找合适的数据爬取提前时间和相对经济高效的数据量,从而最大限度反映全部数据信息。
数据获取方式为利用爬虫技术从网络爬取。数据爬取时间段为从2021年5月15日起,每5天爬取从北京出发所有航班的飞机票经济舱价格有关数据。共爬取了10次,共计近25.4万条数据。爬取的数据结构为小程序页面显示的飞机票所有特征字段,包括航班号、航空公司、出发地和目的地、出发机场和目的地机场、起飞时间和到达时间、经济舱价格、供应商等信息。
经过初步统计,以6月份为例,每天从北京出发航班数在956-1288个之间,每天从北京出发航班到达的目的地数量在109-123个之间。5月15日-5月30日采集的航班数量相差较小,说明在采集时间段一定的前提下,提前多少天采价对采集到的数据量影响较小。航空公司数量相对固定,不会随着采集的时间段缩短而减少,说明多数航空公司在无特殊情况下均会正常运行。经济舱均价呈现“降-升-降”特征。
经过定性分析发现,大部分消费者会在提前一周左右甚至更长的时间购买机票,并且根据目前CPI中飞机票采价方法(即每月5日、15日和25日采集下一旬价格),可确定利用抓取的全部数据研究分别提前15天、10天和5天时,飞机票月、旬和周均价变化。目前CPI的指数编制方法以月均价为基础计算编制环比、同比和累计指数,因此可通过对比不同采集方式的全月均价来确定经济高效的价格数据爬取方式。
月均价情况。提前15天、10天和5天采集下个月全部航班经济舱机票价格,即5月15日、5月20日、5月25日和5月30日分别采集6月份全部数据,分别计算月均价。
旬均价情况。从抓取的全部数据中分别提前5天、10天和15天选取6月1日-6月10、6月11日-6月20日、6月21日-6月30日每旬的数据,计算飞机票旬均价,利用旬均价计算全月均价。
周均价情况。由于每个月的天数恰好分成完整的周时间段,因此从抓取的全部数据中分别提前15天、10天和5天选取5月31日-6月6日、6月7日-6月13日、6月14日-6月20日、6月21日-6月27日、6月28日-7月4日每周的数据,计算飞机票周均价,利用周均价计算全月均价。
对不同数据爬取方式获取的月均价作对比。将提前不同时间爬取的月均价、三旬平均的月均价、五周平均的月均价对比,结果显示:提前15天爬取数据计算出的机票月均价较高且三种方式数据差距较大,提前10天和5天爬取数据计算出的机票月均价三种方式差距较小,提前5天爬取数据计算出的月均价相比来说较低,其中,分别提前5天爬取每旬价格数据然后计算出的月均价最低且每旬之间价格波动相对平稳。另一方面,在日常工作中,考虑工作方便操作和效率问题,爬取每周的价格操作相对复杂,而且月初和月末周很难分割成完整的一周,每月采集的数据会存在偏差;提前5天爬取一个月的数据时月初和月末数据提前时间差异较大且月末的数据不符合消费者购票习惯。因此,可确定机票数据爬取方式为分别提前5天爬取每旬的数据,并且与现行制度要求相统一。
从爬取数据的实际过程来看,全部数据的爬取方式存在占用服务器资源多、效率低、数据处理复杂等问题,不利于长期高频数据爬取。目前在数据爬取方式确定后,上中下旬爬取的数据量分别为9886条、10403条和10357条,下一步根据机票特征寻找既代表性强又经济高效的爬取数据参数和数量。尝试通过以旬均价走势和月均价为参考变量,观察在不同的航空公司、目的地数量下旬均价走势和月均价,并与全部数据旬均价走势和月均价对比,确定纳入爬取程序的航空公司和目的地。
不同航空公司数量下旬均价走势和月均价。在固定了采集时间后(提前5天采集数据),以得出的总体数据旬均价走势和月均价为标准,根据航空公司规模大小、航线数量逐步剔除数据。如在数据剔除后,与全部数据旬均价走势和月均价保持一致,即可认为所剩航空公司及其航线数据能代表总体。分不同航空公司计算旬均价,选取上中下三旬均存在的航空公司,剔除了上旬的重庆航空(20条数据)和中旬的多彩航空(15条数据),经剔除后航空公司每旬有27个,占比较大的有18个,占总数据量在95%以上。
从结果看,占比前3位和前18位的航空公司旬均价及走势与全部航空公司走势一致、价格水平相差较小。但如果只采集3家航空公司的价格,数据波动可能过大,代表性也不够强。为避免航空公司太少引起数据波动大,需适当增加航空公司,因此可确定采集占比前18位的航空公司机票价格。
航空公司固定后不同目的地数量下旬均价走势和月均价。在确定了选择占比前18位的航空公司后,上中下旬的数据量分别为9768条、10233条和10033条。接着根据目的地再剔除部分数据,如果与确定的18个航空公司的旬均价走势和月均价基本接近,说明数据代表性较高。结果显示,爬取的数据量占比前30位的目的地与确定的18个航空公司机票价格趋势一致,价格水平相差较小。占比前30位目的地上中下旬的数据量分别为7409、7047和7013条。
综上所述,根据居民购买飞机票的提前时间量、航空公司数量和目的地数量,可确定利用爬虫技术获取飞机票数据的方式为,提前5天采集下一旬数据,采集数据量排名前18位的航空公司中排名前30名的目的地的数据,每旬爬取的数据量在7000条左右。与现有采价航空公司和航班数量相比,有了极大的提升。
通过前述基于爬虫技术获取网上飞机票价格数据的定性和实证分析,居民消费价格调查中应用网上爬虫数据能更加进一步提高采集频率和代表性,有利于更精准地反映某些类别商品和服务的价格变更信息,但同时也面临着缺乏专业方面技术支撑和数据处理难度大等困难。考虑到以上问题,可以现有调查制度为基础,根据不同类别商品和服务特点制定不同的应用方案,逐步推进爬虫技术所获取网上交易数据在CPI调查与指数编制中的应用。
目前CPI日常调查中,多个基本分类涉及网上数据,如家用电器、飞机票、住宿等,但多以人工在固定时间采集网上交易价格。由于人工网采的工作效率较低,网上采价所涉及的规格品数量、种类、采集频率等方面都有一定的限制。相较而言,利用爬虫技术获取网上交易数据的方式,在采集频率、数据信息的丰富程度以及数据质量上有着明显的技术优势。
网上交易数据根据买卖双方的交易情况实时更新,数据更新变化频繁。在现有的人力条件下,根据代表规格品不同类别人工采价每月采集频率为1-3次,采集频率相比来说较低,难以反映多变的网上商品的价值。爬虫技术获取网上交易数据是通过计算机程序在网上自动进行数据爬取,能做到按日采集数据且不受时间和空间的限制,能更及时、系统地跟踪商品信息的变化。爬虫技术自动采集数据的同时可以实时存储数据,对于互联网多源异构数据,可以针对性采用文本文件、关系型数据库和非关系型数据库进行数据存储,可以将非结构化数据转换成结构化的数据,便于数据采集后的分析。与人工采价相比,价格采集频率和效率可大幅提高。
互联网时代,居民的消费行为、企业经营活动、政府行政行为等产生的海量数据都被记录下来。为更好地反映消费模式的变化,提高CPI代表性,网上交易价格已经应用于CPI中,但主要是采用人工采价的方式,获取的数据量较小,商品信息比较单一。而利用爬虫技术获取网上交易数据时得到的数据量巨大、商品信息丰富。利用爬虫技术能获取网上商品的多维信息,包括商品的价格、名称、参数、上市时间、销售地、消费人数等;还能获取非结构化数据,包括商品评价等文本信息、图片信息、视频信息等。这一些信息能够更好的辅助价格调查选取和替换规格品,并及时剔除网页更换等非价格变革因素。
目前获取网上交易数据的途径主要有人工采集和企业报送。人工采集数据时需要将每一笔数据手动记录,易发生记录错误;当规格品缺失时,采价人员在网上找到比较合适的替换规格品费时费力且主观意识较强。利用爬虫技术获取的网上交易数据可自动存储,还能够根据消费量、商品特性等进行排序,更方便快捷的找到比较合适的替代规格品,减少主观判断的影响,提高数据准确性。企业报送数据易受到多种主观因素影响,出现拒报、迟报、漏报等情况,而爬虫技术可利用程序自动获取数据,数据可获得性大幅提高。
利用爬虫技术获取网上交易数据时,需要处理和存储不同网站、内容丰富的大量信息,既包括价格数据,还需获取商品的名称、产地、销量等辅助信息,以便于后期数据处理和使用,这就需要投入专业的人力资源与服务器等设备资源。目前获取网上交易数据主要有两种方式,一种是基于成熟程序语言的抓取即利用计算机成熟的编程功能,编写抓取的程序代码实现对指定网页或指定内容的抓取;一种是利用现有爬虫软件获取。对于基层统计部门而言,技术力量相对薄弱,即便使用现有的爬虫软件,出现一些明显的异常问题时也很难立即解决,往往耗费更多时间,增加了数据可获得的难度,也很难保障数据的连续性。
一是解析网页链接轻易造成数据缺失。电商一般通过设计内容丰富多彩且极为新颖的网络页面来吸引消费的人,而这样的页面结构层次复杂,不能简单解析。在逐级解析网页抓取数据时常常出现因解析不完备而丢失数据的现象。二是网页频繁更替导致数据混乱。网络销售模式灵活多样,销售页面也经常发生明显的变化,特别是在节假日、促销日等特殊时期,为更好地吸引顾客,网页版面经常会根据专场销售改版,这就给依靠商品链接抓取数据的爬虫工作带来了挑战。三是采集实际成交价困难。CPI采集的是商品的实际成交价,但网上销售活动形式多样,包括秒杀、促销、团购、提前预付定金等销售模式层出不穷,而且优惠链接页面结构较为复杂。在利用爬虫技术抓取网上交易价格数据时,很难通过技术自动识别商家活动并抓取最终的实际成交价。
结合爬虫技术获取网上交易数据的优势以及难点,本文尝试提出一套将利用爬虫技术获取的网上交易数据应用于CPI调查的工作构想,来提升统计效率和准确性、降低调查成本。
首先,确定应用爬虫技术的商品和服务类别。居民消费价格调查要调查的商品和服务包括8个大类、268个基本分类,随着网上消费的发展,几乎所有类别商品和服务均可实现网上购买。但就CPI调查而言,并不是所有类别商品和服务均有必要通过爬虫技术采集网上价格。例如,部分商品网上消费占比不高,袋装醋、散装食品等仍以线下消费为主,烟等商品不在网上销售。又如,水、电等由政府定价的资源型公共产品变动不频繁,人工采价反而更便捷。因此,需结合真实的情况,根据居民消费习惯、消费量、商品的价值特征等,科学选定使用爬虫技术采价的商品类别。其次,确定爬取数据的根本原则。利用爬虫技术获取网上交易数据时仍然要坚持CPI采价的“三定”原则。即由指定的专业方面技术人员和CPI统计人员在固定的时间段持续爬取同一网站的数据。最后是技术上的支持条件。目前爬虫技术的发展已经较为成熟,可使用度很高,不管是编制程序还是利用现有的软件,都有许多可供参考的案例。爬虫技术获取网上交易数据存储形式多种多样,最重要的包含文本文件,如 TXT、JSON、CSV 等;数据库文件,如关系型数据库SQLite、My SQL、Oracle、SQLSever、DB2等,非关系型数据库Mongo DB、Redis等。
方案确定后,由专业方面技术人员编写程序或者利用现有的爬虫工具进行数据爬取,计算机自动爬取过程中需定时查看解决异常问题,遇到程序中断、数据未及时保存等情况时,需及时来更新程序解决技术难题。在数据爬取中出现网页更换、商品信息变动、商品缺失等特殊情况时,需要由专业统计人员根据国家统计局制定的《网络交易价格采集操作方法》进行规范处理。例如,在商品缺货时需判定该商品是暂时缺货、季节性缺货或者是永久缺货,并根据采价原则确定沿用价格还是替换规格品;在采集的网站(即线上采价点)关闭时确定新的采价点等。不同类别商品和服务的采价和规格品替换要求、更换采价点的要求等都有具体制度规定。这些需由专业的价格统计人员根据要求做处理,并记录留存。
爬虫技术获取的网上交易数据量巨大且商品信息维度多,应该要依据CPI调查制度要求,考虑人力和物力等成本因素,对数据来进行清洗、分析和深入挖掘,并针对不一样类别商品和服务的价格运行特点,最终确定网上交易数据应用于CPI编制。例如,目前CPI中飞机票价格每月采集3次,每次采集未来10天的价格,而爬虫技术能做到每天采集固定时间间隔数据,结合影响飞机票价格的购票时间、航班、航空公司以及采价成本等因素,对网上价格数据来进行深入挖掘,探索出较现行采价频次更高、规格品数量更多的采价方式,从而将其纳入CPI编制中。
爬虫技术获取的网上交易数据还有助于完成代表规格品和采价点的选取和替换工作。按照爬取的规格品数据的不同参数进行排序,能更加方便地找到销售量大、代表性强的规格品,在规格品缺失时可较快找到同质可比的规格品进行替换。此外,爬虫技术效率高,可适当增加网上采价点的数量和类型,既能大大的提升采价点的代表性又可以在采价点关闭时更好地替代原采价点。
创新点:一是探讨采用爬虫技术获取飞机票等某一具体类别商品和服务的网上交易价格数据并应用到CPI调查中的方法,探索利用网上交易价格数据相对完善的工作方法和流程,为扩展到CPI别的类别商品和服务提供方法支撑;二是从调查方式、数据源和成本等方面探讨使用爬虫技术获取网上价格数据的优势和不足。
不足:一是数据时间段较短。受到爬取效率的制约,本次只爬取了10次历时一个多月的数据,数据量较大但涵盖的时间比较短,研究中仅使用了一个月的数据,数据也许会出现一定的偏差。二是依靠第三方获取数据。本次研究借助于第三方公司来抓取数据,统计系统内人员还未有过自行抓取数据的尝试和实践,数据来源存在不稳定因素。
目前,爬虫技术获取的网上交易数据在CPI中的应用尚处于探索阶段,要进一步总结经验并及时加以修正。CPI包含的商品和服务基本分类多,不同类别商品和服务价格调查工作存在一定的差异,也存在相通之处。可从某一商品或服务类别入手,探索形成一整套行之有效的工作流程和方法,并逐步推广到别的类别,扩大应用场景范围,来提升统计效率,降低调查成本。