2018-12-11来源:EPS数据平台
一、引言
2016年5月,中央巡视组“回头看”指出,“一个时期辽宁全省普遍存在经济数据造假问题”,国家审计署也直言不讳的指出:辽宁省所辖市、县财政普遍存在数据造假行为,且呈现持续时间长、涉及面广、手段多样等特点。2018年初,内蒙古自治区党委“自曝家丑”,称“经审计部门核算后,内蒙古调减2016年一般公共预算收入530亿元人民币,占总量的26.3%;核减2016年规模以上工业增加值2900亿元,占全部工业增加值的40%。”几乎与此同时,天津滨海新区政府承认“挤掉水分之后,滨海新区2016年GDP从超万亿元调整为6654亿元,2017年预计7000亿元,同比增长6%。”
为遏制若干地方与部门统计数据严重失实、造假的行为,中央全面深化改革领导小组于2016年审议通过了《关于深化统计管理体制改革提高统计数据真实性的意见》,提出健全统计数据质量责任制,依纪依法惩处弄虚作假。2017年8月,中国开始正式施行《统计法实施条例》,强化对统计数据严重失实、造假的相关负责人的处分力度。
统计数据是反映经济形势、社会状态、人民生活的最根本的量化标准,统计数据严重失实、造假,影响将是多方面的。首先,它将直接误导相关部门的判断与决策,给社会经济发展带来不可弥补的损失。其次,统计数据是经济学及相关学科的根基,“根基不稳,地动山摇”。
《中国统计年鉴》和各地方的地方统计年鉴被认为是中国和各地方的最权威统计资料,全面反映了经济和社会发展情况,在各类统计数据、统计刊物中居于领导与核心地位。对《中国统计年鉴》和各地方统计年鉴进行数据质量检验,意义重大。本文尝试利用Benford法则检验《中国统计年鉴》和各地方统计年鉴的数据质量。
二、Benford法则
1881年,美国数学家和天文学家Simon Newcomb教授偶然发现对数计算表的第一页比其他的页面更为破旧,他认为数字1到9,出现的概率是在下降的,但并没有对其进行深入研究。到了1938年,美国物理学家Benford重新发现了这个现象,并对这个现象进行了深入研究,他发现只要数据的样本足够多,以1-9作为第一位数字出现的概率几乎都呈现单调递减的趋势,这种现象广泛存在于人口、会计、股市、物理、化学和宏观经济数据中。
Benford(本福特)法则产生的根源在于自然界广泛存在的指数增长规律,它描述的是以1-9为首位数字的数据的出现概率,其中以1为首位数字的数据出现的概率占总数的三成,是直觉得到的期望值1/9的近3倍。Benford法则公式为:
其中P表示作为第一位数字出现的概率。各数字出现的概率如下:
图1 Benford法则概率分布图
Benford法则自被发现以来,在许多方面得到了广泛应用,包括数据的篡改、统计数据的准确性。国外研究表明,在会计、财务、统计、人口普查、税收、金融、证券市场、股票指数、企业运营等领域,Benford法则具有很好的适用性。《华盛顿邮报》的一篇文章以Benford法则为基础,声称2009年伊朗总统大选造假。国内相关学者也将Benford法则应用到A股上司公司财务、宏观经济、开发区税收等数据核验方面,并取得了一些较好的成果。
三、检验方法与数据来源
检验一个数据集是否符合某种分布,拟合度优度检验是一个通常的选择,但对于Benford法则而言,由于仅有9个首位数字,且实际中即使造假的统计数据,也存在很多真实的数据,导致对拟合度优度检验不敏感,在很多情况下并不实用。我们这里参考相关的资料,选择了相关系数与距离测量这两种检验方法。
相关系数法的判断标准见于表1。
表1 根据相关系数进行判断的分级标准
距离测量法采用以下两种方法:
(1)最大值法,定义如下:
这里为Benford法则中的各首位数字概率,
为实际样本中的各首位数字概率。
(2)欧氏距离法
这里为Benford法则中的各首位数字概率,
为实际样本中的各首位数字概率。为让d值处于[0,1]之间以便比较,我们将d值除以d的最大可能性(即实际样本中的全部数字都是以9开头),记做dg。
限于数据的获得性,我们这里选用的数据为《中国统计年鉴》2010-2018年,31个省(自治区、直辖市)统计年鉴2005年、2011年、2017年。
四、分析结果
4.1 中国统计年鉴
《中国统计年鉴》是由国家统计局编译的一种资料性年刊,全面反映了中国经济和社会发展情况,是中国最全面、且被认为最具权威性的综合统计年鉴。近些年来每年收录的数据量在15万条以上。
从图2可以看到,历年《中国统计年鉴》中数据的首位数字分布近些年大致保持稳定,与Benford法则经验分布较为接近。首位数字为1和9的数据出现的频率较Benford法则的结果低。而首位数字为2,3,4的数据出现的频率则较Benford法则的结果高。
图2 历年《中国统计年鉴》中的数据首位数字分布频率
利用前述提到的三种检验方法,对各年的《中国统计年鉴》数据的首位数字进行了检验,从图3可看到,这9年的相关系数均大于0.995,m统计量与dg统计量总体上位于0.03之下,这意味着2010-2018年的数据与Benford法则经验分布较为接近,质量总体良好,《中国统计年鉴》的数据是可信的。在这9年中2014年的数据质量相对较差,自2014年之后,数据质量逐步提高,2017年达到了这9年中的最好水平。
图3 历年《中国统计年鉴》中的数据首位数字分布频率检验
4.2 各地方统计年鉴
与《中国统计年鉴》相对应的是各地方统计年鉴,它是各地方最重要的统计刊物,也是构成《中国统计年鉴》的重要数据来源。
从图4和附录中可以看到,各地方的统计年鉴数据整体上符合Benford分布,且数据质量总体上在向着更为可靠的趋势发展。数据可靠性一定程度上与经济发达程度正相关,这也是可以理解的,经济发达地区往往统计调查所需硬件配置水平高、统计调查人员专业技能较高,统计数据质量也就随之更高。当然,这还需定量验证。
少部分数据质量较差的省份主要集中在西藏、青海、广西、新疆、甘肃等西部地区,且这些地区统计数据质量有恶化的趋势,这其中更可能是客观原因造成的:地域面积广大、自然环境恶劣、基础设施落后、语言多样、统计调查人员偏少且业务能力偏弱。这需要统计局在制定统计科目的时候,要特别注意西部地区的实际情况,将便捷性作为一个重要考虑方面,同时大力提升西部地区统计调查中所需的硬件配置水平,加大对西部地区统计调查人员的培训,促进东西部统计调查人员的交流互动。
作为当前中国第一经济大省,广东的统计数据质量并不算好,2017年相关系数为0.9934、倒数第7,m值为0.0424、倒数第6, dg值为0.0454、倒数第6,这其中的原因需要仔细探究,一个可供猜测的原因是广东非珠三角地区较珠三角地区显著落后,由此导致非珠三角地区统计数据质量也较差些。
图4 各地方统计年鉴中的数据首位数字分布频率检验
五、总结
经济、社会的发展往往需用统计数据定量描述,而作为统计数据最重要、最权威的来源,《中国统计年鉴》和各地方统计年鉴地位极为重要,它们全面反映了中国和各地区的经济、社会发展。统计数据质量的高低直接关系着相关决策与学术研究,目前,国内外对中国各统计年鉴中的数据质量存疑。
本文利用Benford法则对《中国统计年鉴》和各地方统计年鉴进行了数据质量检验,我们发现《中国统计年鉴》统计数据总体上符合Benford经验分布,数据质量可控,且有逐渐变好的趋势。而对于各地方统计年鉴,绝大部分省份的统计年鉴质量良好,且统计数据质量整体上在变好,统计数据质量看起来与地方经济发展大体上正相关。西部地区由于受自然条件、人员专业能力等影响,统计数据质量较其他省差,这需要采取多方面的措施提高西部地区的统计数据质量。
附录:
表:各省份统计年鉴中统计数据首位数字分布频率检验结果