王有捐：也谈城镇居民收入的统计与调查方法——与王小鲁博士及其课题组关于调查推算方法的商榷--王小鲁的学术主页

王有捐：也谈城镇居民收入的统计与调查方法——与王小鲁博士及其课题组关于调查推算方法的商榷

2010-8-24 22:03:00

（转载一篇国家统计局官员与我的研究报告商榷的文章，供读者参考）

中国统计信息网　2010-08-24 08:48:03

　　日前，拜读了《第一财经日报》记者采访中国改革基金会国民经济研究所副所长王小鲁博士后撰写的报道《不应回避的灰色收入》一文，文中称王小鲁博士测算2008年城镇居民被统计遗漏的“隐性收入”高达9.26万亿元（注：约占当年GDP的30%多，加上这部分遗漏收入，全国居民收入为23.3万亿，约占当年GDP的77%），其中5.4万亿元是灰色收入。为了获得更多的信息，笔者搜集了有关文献得知，2007年王小鲁博士也曾在《财经》杂志发表了《国民收入分配状况与灰色收入》一文摘要。今年的报告是2007年报告的延续，采用的是基本相同的方法。

　　王小鲁博士的有些观点我是赞同的。如，在目前我国居民收入调查中，由于人们对隐私权更加重视，一定程度上确实存在着漏报和少报情况，高收入群体也较少进入调查样本。王小鲁博士使用的调查方法，如，利用居民主要支出的数据来验证收入数据也有可借鉴之处。但我认为王小鲁博士课题组使用的调查和估算方法有值得商讨之处，自然其估算结果也有过高之嫌。故不揣冒昧，就教于王小鲁博士和各位学者。

　　一、由“滚雪球法”调查得出的结论受主观因素影响较大

　　王小鲁博士课题组的调查方法是让调查者找自己的亲戚、朋友或者邻居来做调查，再通过这些人又找他们的亲戚、朋友或者邻居进行调查，从而取得居民收入和一系列消费结构方面的数据。这种调查方法在社会学中被称之为滚雪球法抽样，该方法尽管最初选择调查对象时是采用随机抽样，但是最后的样本都是非概率样本。这种方法在定性分析中较为有效，因为它可以大大地增加接触总体中所需群体的可能性，但是调查结果不适宜用来推断总体。受研究目的和价值观等主观因素影响，不同研究者对同一研究群体会得出不同的结论。报道中称课题组已经意识到滚雪球法抽样存在的局限性，只是把结果用来作为一些重要的居民收支行为的参数，但是，用这些参数作为辅助手段来推断总体同样也是不太合适的。

　　报道中提到，研究人员认为滚雪球法抽样调查取得的数据具有较高的可信度，但是，这一结论是如何得来的则缺少说明。试想，这些不愿意向统计局调查员透露自己实际收入的高收入人群会仅因为调查员是熟人就如实相告？这显然与中国几千年来的传统不相符，怕露富是常态，对熟人恐怕也是如此。

　　二、调查城市和调查样本的选择方法存在主观性

　　根据抽样理论，概率抽样是推断总体的基础。用非概率抽样（主观选择）获得的样本，仅能代表样本群体本身，若用其推断总体一般无法确定结论的可靠性，所以，使用这样的结果需要谨慎小心。

　　报告中强调，为增加代表性，本年度调查比2007年的调查增加了调查城市和调查样本，但我们无法看到19个省份（包括直辖市）的64个调查市和14个调查县城及建制镇的4909个样本家庭是如何抽选的。实际上，该课题所选城市较国家的城镇住户调查来说更多的集中于东、中部地区和大中城市，同时，有意识地增加了居住在较大规模城市、具有较高学历以及从事经营性活动和白领职业的人群比重，虽然其表明“在调查中我们使用的分析方法，使这种分布的差异不会影响到对全国城镇居民人均收入分布的推算结果”，但实际上，基于这样的样本所做的推算无疑将会高估居民收入。

　　我国现行城镇住户调查是按照随机抽样原则，在全国抽选了476个调查市县的65000个调查户进行居民收入与消费调查。调查市县采用分层随机抽样的方法确定。首先，将每个省（区、市）内的市县划分为三层：大中城市（地级和地级以上的城市）、县级市和县城（镇），按各层城镇人口占全省（区、市）城镇人口的比例来分配每层的样本量；其次，在各层内按市县城镇职工年人均工资水平从高到低排队，用与人口规模大小成比例的概率抽样抽取所需数量的调查市县，并根据抽中的次数确定调查市县的样本量。在调查市县内采用两步抽选调查户。第一步，按照多阶段、随机等距方法，抽选一相样本（俗称大样本）开展城镇居民基本情况抽样调查；第二步，从一相样本（或大样本）中按照家庭人均收入排队，等距抽选出一个小样本，作为常规调查户，开展记账工作。每个调查户都可以计算入样概率，调查样本数据可用来推断总体。国家统计局按照上述方法对调查样本的代表性进行了测算，结果表明65000户样本量对全国和分省（区、市）有较高的代表性，在置信度为95%时，主要收支指标的抽样误差（不含漏报、少报等产生的非抽样误差）在5%以内。从理论上讲，国家组织的常规住户调查方法有着较严密的科学依据，是国际上普遍认可的。

　　三、恩格尔系数法在当今的中国似不足以作为推断居民收入的主要依据

　　该项研究中所采用的一个很重要的分析方法就是基于“在相同经济背景下具有相同恩格尔系数的两组居民，应当具有大体相同的收入水平”的判断来推算收入系数，并由此来校正城镇居民的收入数据，即所谓的“恩格尔系数法”。这样做是否合理呢？

　　恩格尔系数是指食品消费支出在消费总支出中所占的比重。一般情况下，恩格尔系数越低，代表居民生活水平越高。但是，我们不能单纯地根据恩格尔系数的大小来测算居民收入的高低。主要原因是，处在市场化进程中的中国，其消费结构与发达国家较为稳定的消费结构相比变动较大，而且中国地区分布广阔，不同地方的居民饮食结构和习惯存在明显的差异。例如，从2008年36个大中城市居民的恩格尔系数来看，广州市为33.7%，上海市为36.6%，而呼和浩特市和长春市分别为32.2%和32.4%。很明显，我们不能由此推断广州和上海市居民的生活水平比呼和浩特市和长春市低。广州和上海两市恩格尔系数高的具体原因是：当地居民偏向于在吃上多花钱，在外饮食的支出远高出全国平均水平。我们再看经济背景相近的东北三省，2008年辽宁、吉林和黑龙江城镇居民恩格尔系数分别为39.0%、34.0%和36.3%，三者差异较大，我们并不能得出吉林城镇居民生活水平就比黑龙江、辽宁要高的结论。事实上，辽宁、吉林和黑龙江三省2008年城镇居民人均可支配收入分别为15836元、13606元和12264元，辽宁反而要高些。

　　除收入水平、生活习惯因素外，恩格尔系数还受其他因素的影响。恩格尔系数的变化是多因素影响的结果，不能单把这一变化归结为收入因素一方面的影响。从长期趋势看，恩格尔系数与收入水平呈负相关性是正确的，但是，不能由此简单地推断：在短时期内（报告中是一年内），在相同经济背景下，有相同恩格尔系数的家庭就有相同的收入水平的结论。

　　四、通过外部数据验证隐性收入的严谨性值得考虑

　　课题研究中采用居民购房、汽车拥有量、出境旅游等数据对住户调查的收入数据进行验证，对于我们加强各种统计调查数据之间的关联性评估很有借鉴意义，但是，文中在使用外部数据进行验证时，对口径、范围、概念的一致性处理方法不够严谨，有待于进一步探讨。这些外部数据很多是无法清楚地区分是否属于居民拥有，比如储蓄存款，就不能清楚区分哪些属于居民储蓄？哪些属于公款私存？对于购房，也无法确切区分，哪些属于居民购买？哪些属于单位购买？对于股市私人投资，也无法区分，哪些属于居民投资？哪些属于企业投资？哪些属于国外资金？在进行收入比较时，把居民与私营企业，把货币收入与所有者权益增加混为一体，这样做势必会高估比较差异。

　　房价收入比在中国的合理界限为3年的提法也有待于进一步探讨。房价收入比是一个有严格内涵的概念，具体应用时要注意其到底是什么情况下的房价收入比。在西方，房价收入比有新建住宅的（新房交易），也有旧有住宅的（二手房交易）。我国的房价收入比的统计尚无如此完备的信息，在市场化进程不断加快的中国，房价收入比的合理界限到底为多少？理论界对此存在着诸多争议。而该研究援引国际经验说明住宅的平均价格一般不超过居民家庭平均年收入的3倍，并根据3倍的房价收入比推算出已经购买商品住宅的家庭收入一般在10万元以上。这一结论与实际有很大的出入。举个例子，假如某家庭购买了150万元的住房，我们就推断该家庭的年收入大约就在50万元以上，对比身边的实际买房者，此现象并不多见。

　　根据联合国公布的有关资料，1998年对96个国家的统计结果表明，这些国家的房价收入比区间为0.8～30，平均值为8.4、中位数为6.4。不同国家房价收入比的离散程度相当大。换言之，依照购房者的家庭年收入应当不低于房价的三分之一这样一个尚有待于证明的假设来估算有房户的家庭年收入，其数据的可靠性、准确性有待进一步验证。更何况，当前在一些大城市，买房者特别是年轻购房者往往非一己之力，而是倾尽两三家之力买房，若以此推定购房者的家庭收入可能有些武断。

　　五、调查问卷中一些意向问题的设置缺乏中立性

　　在该项调查中，研究者设计了“如果一个不认识的统计局调查员来找您进行家庭收入和消费调查，您愿意把您的家庭年收入全都如实告诉他/她吗？如果不愿意，您愿意告诉他/她的收入是多少？”的问题，这带有明显的倾向性，由此得出调查者收入水平越高，隐瞒收入的倾向和隐瞒的程度就越高。其中，最高收入组中有高达70%的被调查者表示不愿意报告真实收入，他们表示愿意报告的收入只相当于他们真实收入的34%。

　　显然，这样的问卷设计具有较为明显的诱导性，也不符合社会科学研究活动应保持中立和不作价值判断的原则。

　　假设在常规城镇住户调查中比照该题设计类似的问题：如果一个你熟悉的调查公司的调查员来找您进行家庭收入和消费调查，您愿意把您的家庭年收入全都如实告诉他/她吗？如果不愿意，您愿意告诉他/她的收入是多少？相信也会得出大致相同的结论。

　　六、对调查推算结论的看法

　　由于在调查和推算方法上存在上述不当之处，故据此得出的收入结论自然也就打了很大的折扣。

　　我们知道居民收入统计存在某些偏差主要由两方面原因造成：一是调查样本的抽样误差；二是调查过程中的非抽样误差。对于抽样误差可以进行有效控制，一般通过扩大样本量、改进抽样方法等手段来完成。而对于非抽样误差，其中由于覆盖范围、指标定义、问卷设计、采集手段、数据处理程序等产生的非抽样误差可以通过改进方法来缩小，其中由于调查户配合程度下降，比如拒绝调查、漏报和少报现象增多，目前还缺乏比较有效的手段。在西方国家多数使用个人收入所得税数据对居民收入调查结果进行评估校正，而我国还缺乏比较完善的个人收入所得税资料，无法使用此方法。目前，我们正在组织开展全国范围的城镇住户大样本调查，希望通过更大的样本量、较简单的问卷、较高的回答率来获得高收入户的参与比例，同时，对无回答住户搜集其住房、社区环境等辅助资料来评估常规调查户样本结构偏差。我们也计划对常规调查户开展一些无记名的邮寄问卷调查来比较其在记账过程中的漏报、少报收入比例情况，并依此来评估全国居民的调查收入偏差程度。

王小鲁博士对灰色收入的测算方法尽管存在一些值得商榷之处，但是，其采用居民家用汽车、商品住宅、出境旅游、银行存款等外部相关数据对我国常规住户调查居民收支数据进行验证的方法为我们提供了不同的思路和模式，值得借鉴。王小鲁博士的测算结果虽然受测算方法的制约，需要做些修正调整，但是，其关于居民收入统计存在遗漏现象的观点给统计调查工作指出了需要关注和需要探讨的一些问题，这对于促进统计调查方法制度的不断完善是很有帮助的。

　　（作者单位：国家统计局城市司）

阅读全文 | 回复(0) | 引用通告 | 编辑

标签：灰色收入收入分配统计数据

上一篇：关于十二五期间就业形势及应对措施的考虑
下一篇：施发启：也评王小鲁博士的《灰色收入与国民收入分配》

发表评论：