
统计数据质量的基本概念与数据质量评估的基本模型
许永洪
【摘要】通过综述统计数据质量的研究文献,文章从广义和狭义两个角度定义了统
计数据质量,厘清了统计数据质量的概念和内涵.在此基础上,文章对诊断统计数据质
量的一般理论模型进行了探索,并讨论了模型的适用性和应用模型进行统计数据质
量评价时应该注意的问题.
【期刊名称】《商业经济与管理》
【年(卷),期】2010(000)012
【总页数】5页(P82-86)
【关键词】统计数据;数据质量;数据评估
【作者】许永洪
【作者单位】厦门大学,经济学院,福建,厦门,361005
【正文语种】中文
【中图分类】F222.7
一、问题提出
统计数据是对一个国家或者地区社会经济活动和成果的记录,也是进行社会经济问
题研究的基本资料,统计数据质量(下文“数据质量”与此同义)的高低决定了研究之
于实践的有效性,因此,科学评估数据质量本身就是一项重要的学术课题。在数据质
量评估方面,先前的研究进行了许多有意义的探索,但是仍然存在一些问题:
第一,数据质量的概念和内涵需要进一步明确。现有的研究对数据质量的定义存在
两种认识,一种认识把数据质量和数据的真实性相提并论,如孟连、王小鲁
(2000)[1],刘洪、黄燕(2007)[2]的研究体现了此类概念认识;另一种观点则认为数
据质量是一个综合的概念,涵盖数据准确性、可获取性、可理解性、有效性、完整
性等多方面内容[3-9],但是对于具体涵盖哪些性质,研究者并未达成统一认识。
第二,数据质量实证研究的理论框架需要梳理。除了对数据质量概念理解不同造成
的实证方法论存在差异外,同一概念下不同方法之间的关系和不同方法的应用效果
也亟需厘清。以GDP的准确性诊断为例,诸多学者进行了实证研究[1-2][10-11],但
是这些实证并没有形成系统的诊断体系,也没有发掘指标法、回归模型等诊断方法
论之间的内在联系和区别,从而无法对实证结论进行对比。
基于以上问题,本文将在前人的基础上,进一步厘清数据质量的内涵,对数据质量研究
的理论模型进行归纳梳理,并讨论模型的适用性和应用中需要注意的问题。
二、统计数据质量概念的再探讨
(一)数据质量的内涵
ISO9000:2000[12]将质量(quality)定义为:一组固有特性满足明示的、通常隐含的
或必须履行的需求或期望(要求)的程度。该体系对质量的定义包含两方面内容,一方
面说明质量是综合的概念,是事物的一组特性;另一方面说明质量是满足需求或者期
望的程度,质量的评估应该从需求入手。因此,经济统计数据质量的定义,可以理解为
经济统计数据的一组固有特性满足使用者需要的程度。经济统计数据质量具体需要
涵盖哪些特性,则取决于使用者对数据的要求。
表1现有研究对统计数据质量内涵的讨论?
国内研究人员根据自身理解,对数据质量的内涵进行了有意义的探索(见表1),这些讨
论涵盖了使用者对经济统计数据的各种要求,但由于没有属性进行分层和归纳,先前
的研究显得零散,而无法达成统一的认识。一般来说,统计数据的使用者通常希望在
特定的时间获得研究所需要的数据,并且要求这些数据的统计口径一致、真实可靠。
根据这样的需求,结合以往的研究成果,可以把数据质量的涵义进行如图1归并。
分层归纳后,统计数据质量的内涵可以从两个层级进行概括,第一个层级包括准确性、
完整性、时效性和可比性四个方面要求。
图1统计数据质量内涵的归并
准确性指数据充分反映现实情况的程度,准确性的实现需要满足两方面要求,一方面
要求统计人员坚持客观性,确保统计过程真实可靠,杜绝造假、瞒报、谎报等违规行
为,即数据收集过程可信任的(信度);另一方面要求数据的统计方法是有效的(效度),
要求统计的抽样设计、过程控制和统计估算等方法设置科学合理,在数据收集过程
可信的情况下,统计数据与经济现象的实际真值无限接近。
完整性指统计数据能够满足经济研究方方面面的需要。数据的完整性要求包括可获
取性和适用性两方面内容,可获取性指使用者从统计部门获取数据的便利程度,适用
性则指数据是否适销对路。社会经济数据的统计是有成本的,数据过粗过少无法满
足社会经济研究的需要,数据提供过细过多,则容易造成浪费,适用性也可以理解为统
计数据的相对全面性,要求指标提供数量上要满足研究需要。
时效性指经济现象发生和可获得该数据的最早时间之间的间隔。对经济现象进行研
究和制定经济政策通常需要研究最新的经济表现,所以要求统计数据能够尽可能在
最快时间提供或公布。
可比性指同一数据指标在时间和空间上的可比程度。在时间上,由于统计数据的统
计制度和统计方法会进行调整,为保持一致性,要求统计部门在每次变动后,对历史数
据进行追溯调整,保持数据纵向上的可衔接性;在空间上,要求不同的国家参考的统计
标准尽可能一致,在一个国家内部,要求同一指标在不同地域的统计口径保持一致。
(二)广义和狭义的数据质量
在以上四个方面的特征中,数据的准确性占据了极端重要的地位,是经济统计数据质
量的核心。理论上,如果数据不满足准确性以外的其他性质,我们依然可以利用数据
进行部分研究,但是,如果数据不能满足准确性,即数据不能反映客观发生的经济现象,
那么利用这样数据进行的经济研究在反映现实经济问题时将产生偏误,研究结果的
实用性将大打折扣甚至失去参考价值。在评估数据质量时,只有数据在一定程度上
满足准确性要求,对数据的其他性质进行评估才具有现实意义。
实践中,数据的准确性是研究人员最需要关注的问题。一定时期内,一国或者国际上
主要国家参考的统计规范文件是相对稳定的,数据公布的指标数量和时效性也是在
短期内不会发生重大变化。例如,现阶段许多国家参考的统计规范多是1993版本
的国民经济核算体系(SystemofNationalAccounts1993,简称SNA1993),数据
公布系统也以数据公布通用公布系统((GeneralDataDisminationSystem,简称
GDDS)和数据公布特殊标准(SpecialDataDisminationStandard,简称:SDDS)
等国际标准作为规范。即便出现普查或者统计制度的调整,政府统计部门通常会对
数据进行追溯调整,保持数据在时间上和空间上的可比性。稳定的统计标准和政府
对异常年份数据的调整机制,决定了一个国家或者地区的统计数据在短期内完整性、
时效性和可比性一般不发生变化,此时,对经济统计数据的评估实际上只需要对数据
的准确性进行诊断。此外,在大多数专项研究中,研究人员通常了解数据来源国家或
者地区数据的公布节奏、指标范围和统计口径,即了解数据的时效性、完整性和可
比性,对于专业的研究人员而言,在进行专项研究以前,通常只需要对数据的准确性进
行考察。
尽管数据质量是一个综合的概念,包括多方面的要求,但是,不管在数据质量评估的理
论上还是在实践中,数据的准确性都占据了极端重要的位置,成为数据质量评估的核
心问题。很多时候,数据准确性成为数据质量的代名词,因此,为了避免概念上的混淆,
我们将数据质量的概念进行广义与狭义区分。广义的统计数据质量即综合性的数据
质量的概念,它包括准确性、完整性、及时性、可比性四个方面涵义,狭义的数据质
量则专门指数据的准确性。广义的数据质量是国际机构对一国(或上级部门对下级
机构)的统计数据的长期的动态的综合评价体系,也是一个国家(或地区)统计数据改
进的努力方向;狭义的数据质量则是使用者对统计数据的短期要求,也是进行专项经
济研究进行的前提条件。
三、数据质量评估的理论模型
为了对数据质量进行评估,我们参考信息管理学科的方法,以六元组的形式建立数据
质量的评估模型:
其中,D表示需要进行评估的数据集合,I表示数据集合上需要进行评估的指标,如准
确性、完整性、及时性、可比性等,F表示与评估指标相对应的规则,也就是评估方
法,W表示赋予评估指标的权值,E表示结果参考标准,S表示评价结果。
(一)广义数据质量的评估模型
广义数据质量评估实际上是统计综合评价问题,对数据的评价包括四个方面内涵,即
I包括四项评估指标,通常可以构造评估函数:
如果D中只含有一个指标,则是单变量评价,如对全国各个省份GDP数据质量的评
估属于单指标评估问题;如果D中含有一个以上的指标,那么是个多变量评价,评价过
程包括两个步骤,第一步求单个指标评估值,然后再加权得到综合的数据质量水平。
F、W和E是数据质量评估的方法论基础,需要研究人员根据对数据的经验认识和
对方法论的把握程度进行确定:
对于广义数据质量的评估,通常使用的是统计综合评价的方法,对数据的各项评估指
标进行综合汇总,从而获得评估结果S。张芳(2004)[5]3-4利用模糊综合评价的方
法,对统计数据的相关性、准确性、及时性、可取得性、有效性、可比性、可衔接
性、可理解性进行了评估方法进行了类似的实证探索。
确定评估指标的权重W和不同等级数量质量的参考值标准E是实践性很强的工作,
统计学提供了很多加权的方法和等级划分的数量,也提供了专家法等定性的方法,这
些基本方法都有助于对广义的数据质量进行更加科学的评估。
(二)狭义数据质量的评估模型
狭义的数据质量评价通常称为数据质量诊断,是对数据准确性的考察,即I中仅含准
确性这一评价指标,该指标的权重自然也是1。为评估数据的准确性,一般来说,可借
助经济变量之间的关系,可构造如下评估函数:
其中f∈F在这样的评估函数中,通常可以α和ε两个角度进行诊断。
1.从系数α进行诊断
从系数α的角度,可以分别从横向和纵向进行研究。横向可比较不同国家或者地区
系数的差异,现实中,同类国家的某些系数往往表现一致,不同发展阶段的国家系数呈
现的趋势亦容易呈现出一定规律,例如,不发达国家全要素生产率通常要低于发达国
家。纵向来说,同一系数在不同年份的变化趋势与变化率亦容易呈现一定规律。孟
连、王小鲁(2000)[1]3-13研究发现中国工业增加值函数中全要素生产率在
1992-1997年为7.3%,远高于1978-1991年的2.5%,在没有理由支撑现实全要素
生产率可能产生飞跃时,他们对1992-1997年的工业增加值提出了质疑,从而对中
国GDP的准确性提出质疑。
事实上,我们无法知道系数α的绝对标准,现实中也不存在这样的绝对标准,α系数只
存在一定的规律性,所以参考标准E根据研究者的经验和社会共同知识确定。系数
不符合规律并不能代表数据准确性一定存在问题,只有排除了所有可能引起系数变
化的因素后,才可以对数据准确性进行质疑。
特别地,当n=1时,即评估函数自变量只有一个的时候,不带常数的一元线性回归对
应的评价规则就是常用的比率法,现实中经济内的一些比率在短期内具有稳定性,在
不同的发展阶段也具有可循的变化规律。Rawski(2001)[10]347-354对中国GDP
的质疑原理与之类似,其认为1997-2000年中国的GDP、能源使用、城市就业和
消费价格指数的增长率等一些指标间的关系变动与经济发展的普遍规律不一致,从
而怀疑中国GDP统计的准确性,掀起了关于中国GDP数据准确性的大争论。
2.从残差项ε进行诊断
从残差ε的角度进行诊断,认为经济变量的数量关系通常比较稳定,在不发生外部冲
击情况下,单一经济变量会与其他经济变量变动保持一定关系,即便波动也不会出现
重大偏离,如果变量波动超过设定的波动界限时(异常值),研究人员需要对变量的准
确性进行重新考察。刘洪、黄燕(2007)[2]17-21利用1978-2003年GDP数据,
建立了GDP与时间的趋势指数模型,该模型隐含假定短期内经济呈惯性增长,在没
有发现异常值的情况下,他们认为“在我们假定1978-2003年间的GDP数据真实
可靠的情况下,认为我国2004年公布的GDP数据是准确的”。
从ε角度诊断统计数据的方法本质上是对经济变量关系中异常值的查找,计量经济
学对异常值诊断的方法都可为统计数据准确性诊断所用。
面对庞大的统计数据,经济模型能够便利地诊断经济变量之间的经济关系,并快速找
到经济变量关系可能存在的矛盾关系,从而提醒研究人员对数据准确性进行重估。
模型的方法在处理大量数据上和其在效率上的优势是其他任何方法无法比拟的,但
是模型诊断方法也存在一定的局限性:首先,利用模型诊断数据,只能质疑,不能否定。
利用模型的方法诊断数据,只能说明经济变量间的关系存在异常,这种异常可能是数
据不准确造成,所以可依据模型结果对数据准确性进行质疑,但是异常也可能来自经
济中的外部冲击,因此不能以模型结果直接否定数据的准确性;其次,模型也不能证明
数据的准确性,只能说明变量之间的经济关系没有违背理论规律;再次利用模型诊断
出异常时,关系的异常可由因变量准确性造成,亦可由自变量准确性造成,到底是自变
量还是因变量存在准确性问题,模型依然无法直接给出答案。为了避免模型诊断方
法的局限性,要求研究人员对经济过程有充分的定性认识,利用对利用好统计模型。
四、结语
广义的数据质量,是数据使用者对数据提供者的期望与要求,也是数据使用者改进工
作的努力方向。国际组织和统计部门需要对广义数据质量进行经常的动态的评估,
作为对自身工作的检查和督促,广义的数据质量也是数据使用者对统计机构的工作
满意程度的评价,广义的数据质量评估应该作为一项政府和国际组织的经常性工作,
并向社会公布数据质量的演变状况。广义的数据质量评估模型和实证工作目前比较
缺乏,需要统计部门、国际组织和学界的共同努力。
狭义的数据质量诊断是大多专项工作的基础工作,在经济研究中,越来越多的研究者
开始重新审视数据的准确性,甚至对数据质量的准确性提出质疑。经济统计提供了
大量的统计指标供研究者使用,如何评价这些指标的准确性本身也称为一项重要课
题,数据准确性的诊断将出现在经济研究的各个领域,尽管不同领域的特征不同,但是
准确性诊断理论的大多出发点是一致的,不同领域准确性诊断的方法论也可相互借
鉴。
不管对广义的数据质量还是狭义的数据质量,统计学都提供了丰富的评价方法论体
系供研究人员使用,这些方法论有其侧重,又有其内在联系,在实践研究中,使用这些研
究方法,亦要结合考虑统计方法自身的局限性,避免不严谨的使用方法,从而导致错误
结论。
参考文献:
【相关文献】
[1]孟连,王小鲁.对中国经济增长统计数据可信度的估计[J].经济研究,2000(10):3-13.
[2]刘洪,黄燕.统计数据质量的评估方法研究——趋势模拟评估法及其应用[J].统计研究,2007(8):17-
21.
[3]李金昌.论什么是统计数据质量[J].统计与决策,1998(9):6-8
[4]张芳.政府统计数据质量及其管理研究[D].长沙:湖南大学统计学院,2004:25-26.
[5]杨青云等.数据质量评估方法研究[J].计算机工程与应用,2004(9):3-4.
[6]朱冬辉.统计数据质量管理中若干问题的探讨[J].统计与决策,2005(8):59-62.
[7]王彦茹.统计体制视角下的我国统计数据质量研究[D].大连:东北财经大学统计学院,2006:6-8.
[8]郭江.政府统计数据质量的定量二级检验[D].福州:福州大学管理学院,2006:10-15
[9]刘洪,黄燕.统计数据质量及其评估方法[J].统计与决策,2006(2):30-31.
[10]happeningtoChina'sGDPStatistics[J].ChinaEconomic
Review,2001(12):347-354.
[11]KLEINLR,OZMUCURS.中国经济增长率估计[J].数量经济技术经济研究,2002(8):5-8.
[12]中国标准出版社.质量管理体系基础和术语(ISO9000:2000)[S].北京:中国标准出版社,2001:9-
10.
本文发布于:2023-03-04 23:42:40,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1677944561116260.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:GDDS.doc
本文 PDF 下载地址:GDDS.pdf
| 留言与评论(共有 0 条评论) |