(原文发表于《科研信息化技术与应用》2014年第5期)
摘 要: 为更好地记录中国社会变迁过程,反映国情,了解民意,开展大型纵贯学术调查已成为多个学科获取研究资料的重要途径之一。为完成各学科众多的大型调查需求,有必要建立起覆盖全国的、以城乡居民为调查对象的调查网络。本文以中国社会科学院全国居民调查网络为例,设计了侧重于地理-行政区域的代表性的六大行政区抽样框,按经济地理区域区分东中西部划分的抽样框,同时还有直接加总推断全国具有全国代表性的简约型抽样框。
关键词:固定抽样框;纵贯调查;调查质量控制
引言:
随着改革开放进程的深入,我国经济、政治、社会、文化、价值观等各方面发生了极其深刻的变化,标志着经济增长和社会发展的进程,同时也面临挑战。特别是21世纪以来,我国进入了改革开放的关键时期,也进入了社会问题与社会矛盾的多发阶段。在中国社会变革承前启后的历史节点上,我国的社会科学领域需要着手对我国社会变迁的过程、现状、特征、动力、趋向等方面开展持续而系统的考察,进行科学而深入的研究。同时,在现实层面,对当前存在的重大社会问题,需要了解民意,以便提供科学的对策建议;此外在理论层面,需要丰富的数据资料以积累中国社会发展的经验,丰富世界范围内中国研究的内涵,对以西方社会为中心的理论和经验研究提出挑战。开展大型学术调查已成为中国社会科学院多个学科获取研究资料的重要途径之一,为满足各学科众多的大型调查需求,有必要建立起覆盖全国的、以城乡居民为调查对象的调查网络。
本文以中国社会科学院全国居民调查网络(简称CASS)为例,就满足不同调查总体需求设计多方案结合的抽样框展开分析,设计出满足不同学科居民调查的抽样方案。
1 相关研究现状评述
固定抽样框和调查执行队伍的建设是经济社会纵贯调查(Longitudinal Study)的基础。从国际上看,美国社会科学界著名的学术调查“综合社会调查”(GSS)、“家庭动态追踪调查”(PSID)、“当前人口调查”(CPS)、“全国毒品及健康调查”(NSDUH),日本的“社会阶层与流动调查”(SSM),台湾地区的“台湾社会变迁基本调查”(TWSC)等均建立了长期的固定样本调查点和执行机构。
从国内来看,国家统计部门早在1983年建立了“农村社会经济调查总队”,目前全国农村抽样调查网点覆盖了全国31个省区市超过1/3的县、4000多个乡镇、6万多个村和20多万农户,之后在1990年代又分别成立了“城市社会经济调查总队”和“企业调查总队”。三支调查总队的统计调查成果成为政府和学界获悉国民经济和社会发展、人民生活变迁资料的重要参考。
公共卫生及医疗健康领域的纵贯调查开展较早。1989年卫生部中国疾控中心与美国北卡罗来纳大学人口研究中心、美国国家营养与食物安全研究所合作开展了“中国健康与营养调查”(China Health and Nutrition Survey, CHNS),旨在检验健康﹑营养和计划生育政策的影响以及研究中国社会经济的转变如何作用于整个人口健康和营养状况。到2009年为止该调查一共进行了8次,每次调查的抽样点不尽相同,但抽样原则是大体一致的,即采用多阶段分层整群抽样的方法。如2002年的调查抽样方案是将全国分成6个不同经济类型地区(大城市、中小城市、一类农村、二类农村、三类农村、四类农村),在其中抽取132个调查县/区、264个乡镇/街道,样本包含7万余户、24万余人。2010年起,调查方式变换为常规性营养监测,每4年完成一个周期的全国营养与健康监测工作。全国按照代表性原则设计为150个监测点(区/县),每个监测点的样本人群设计为1000人以上,150个监测点的样本人群总数为16-18万,加上婴幼儿童和乳母专项监测,样本总体约为18-20万人。将城乡分为4层,分别是大城市、中小城市、农村和贫困农村。监测点分配为大城市34个、中小城市41个、农村45个和贫困农村30个。每个监测点(区/县)中抽取6个居委会(村),每个居委会(村)抽取75户家庭。这才成为真正意义上的固定抽样框。1993年起,卫生部卫生统计信息中心开启了第一期“全国卫生服务调查”,以多阶段分层整群随机抽样方式抽取了全国92个县(市区)、460个乡镇(街道)、920个行政村(居委会)的54000户,对近21万居民进行居民健康询问调查。之后又于1998-2013年间开展了后续的4次调查。
近年来,国内社会科学研究领域的持续性调查渐次推展,建立以全国居民为调查对象的、固定的抽样调查网络成为开展大型学术性调查的基本建设。2003年中国人民大学人口与社会学院开展了国内社会科学领域首项持续性的大型学术调查项目——“中国综合社会调查”(CGSS),开始全国抽样框的设计工作,至2010年完成了CGSS第三期的抽样框建设,覆盖了全国120个区市县、500个村居委会,并依靠由全国25所地方高校及社科院组成的“全国社会调查网络”(CSSN)实现调查执行。
2008年北京大学成立了中国社会科学调查研究中心(Institute of Social Sciences Survey, Peking University,简称ISSS),执行两项大型学术调查项目:“中国家庭动态研究”(CFPS)和“中国健康与养老追踪调查”(CHARLS)。ISSS的全国抽样框覆盖中国25个省、自治区、直辖市下辖的160个区市县的640个村居委会。其调查执行采用招募当地兼职人员的方式,有近300名调查员。
综上所述,国内外的大型调查机构的抽样框和调查网络建设为我们提供了良好的范例,但依然有可商榷完善之处。例如,上述两项公共卫生医疗健康领域内的调查,在多级抽样中均有乡镇一级抽样单元,这难免会增加抽样误差;初级抽样单元的分层指标主要考虑经济发展水平和城乡分野,不太注重人口规模、人口教育程度等因素。社会科学领域的纵贯调查的抽样设计中,城镇与乡村通常作为两个独立的域,单独抽取抽样单元而后合并为全国性的总体;或者在实地抽样的操作过程中,将居委会和村委会分别作为代表城乡的最终抽样单元。这在一次性的横断面调查中是可取的方式,但作为持续性的纵贯调查,固定样框在初始阶段的城乡分设,很难应对高速城镇化过程中抽样单元的城乡属性变动。作为服务于各调查项目的抽样框,一方面尚无共享抽样框的机制,另一方面,不同的抽样框在设计阶段有各自的抽样目标,而中国社会科学院有不同研究领域与居民家庭调查相关,建立自属的、以专业性服务于学术调查的全国抽样调查网络,是势在必行的。
2 演变历程及实施现状
全国居民调查网络是在“中国社会状况综合调查”项目(Chinese Social Survey,简称CSS)总结三次调查抽样框经验基础上形成的。其中第一次调查的抽样框是根据2000年人口普查资料为基础的采用了多阶段复合抽样(Multi-stageComposed Sampling)的方法形成的,即分县/市/区、乡/镇/街道、居委会/村委会、居民户、居民5个阶段抽样,每个阶段采取不同的抽样方法。第一阶段PSU县/市/区的抽取首先是以2000年全国第五次人口普查的《2000人口普查分县资料》为数据基础,将全国2797个县/市/区作为抽样框进行分层比例抽样。其具体做法是,首先采用城镇人口比例、居民年龄、教育程度和产业比例4大类指标7个变量对2797个县/市/区作聚类分层,共划分了37个层。而后再按照PPS(Probability proportional to size,与单位大小成比例的概率抽样)的抽样方式,在每一个分层中,抽取相应数目的县/市/区。共抽取了130个市县区,覆盖全国28个省/自治区/直辖市。第二阶段PSU乡/镇/街道的抽取是根据从上一级抽中的县/市/区的相关部门获得的乡/镇/街道户数、人数统计名册作为抽样框,以PPS的方法在每一个PSU内抽取出2个乡/镇/街道,全国共抽取了260个。第三阶段PSU村委会/居委会的抽取是根据从上一级抽中的县/市/区的乡/镇/街道相关部门获得的村委会/居委会户数、人数统计名册作为抽样框,以PPS的方法在每一个PSU内抽取出2个居委会/村委会,全国共抽取520个。在此阶段的抽样中,派遣抽样员到每一个抽中的村委会/居委会登录常住人口与外来人口的资料,最终汇总成了一个涵盖47万户、160余万人的抽样框数据库。
2006年调查抽样框在村居一级以住户名单为抽样框,随着人口流动等原因,在2008年调查执行时,出现人员变更无法及时更新的问题,所以在调查开始前需要对抽样框信息更新,以减少覆盖误差。但是更新名单需要各级行政部门的配合,而且涉及到住户隐私等,名单资料的获取难度极大。这也意味着在今后建立新的抽样框时村居住户单不能再以住户名单的形式实施。
3 全国居民调查抽样框设计
3.1 设计原则
社会科学领域的调查研究,其基础在于收集社会成员的属性特征(如年龄与出生世代、教育程度、职业、家庭结构等)、社会行为(如婚姻、生育、就学、择业、消费、选举投票、互联网使用等)和社会态度与理念(如工作满意度、幸福感、对政府的评价、价值观念)等方面的变量信息,因此以社会公众为研究对象,是社会科学研究各学科所共通的。以全国居民为调查对象的调查抽样框,其设计的目的是为今后10年中国社会科学院各学科片的大型学术调查服务,在设计上需要满足多种因素,以便在设计环节更加完善。
3.1.1 样本稳定性
此抽样框设计目标是为中国社会科学院开展大型持续性公众调查与重大的专项调查建立固定、多层级样本清单,使得历年度调查可以对全国居民总体的调查指标进行概率统计推断。调查方式为入户面访。基于抽样方案所抽中的社区级别的抽样单元(村/居委会)保持不变,每次调查前在抽中的社区级别的抽样单元中重新抽取家庭,以求有效控制随机误差对社会变迁测量的影响。
上述固定抽样框的使用及维护周期为10年(即和全国人口普查周期相衔接),至2022年将根据第七次全国人口普查资料更新。
3.1.2 样本代表性
为适应全院多个研究机构同时开展大型调查的需求,需设计多套功能不同的居民调查抽样框。其中基础型抽样框覆盖广,抽样与调查单元数量较多,能承载的调查样本量多,以满足大型持续性调查需求;简约型抽样框覆盖集中于抽选的若干省/市,抽样与调查单元数量较少,满足统计指标相对较少、调查周期短、样本规模不大的专项调查需求。鉴于目前科研力量现状及经费情况,此抽样框设计仅限于推断全国以经济发展水平划分的东中西部大区、以地理-行政区域划分的6大区的家庭户及居民,目前暂不设计全国范围内的省级推断。
抽样框的设计将尽可能整合社会科学领域跨科际的研究需求,采取共建、共享、共管的合作机制,成为我院各科研机构以居民为研究对象的社会调查平台。
3.1.3 样本分层
大多数全国性社会调查的抽样设计中,一般都会考虑分层的抽样设计,尤其是城乡之间的分层。这种考虑的主要出发点是为了在样本量不变的前提下提高样本精度。其基本假设是认为在我国,城镇居民所占人口总比重虽然较低,但他们之间具有很强的异质性;相反,农村居民虽然是我国人口的大多数,但是他们的同质性更强。在这种情况下,根据城乡进行分层,并对城镇居民进行适当的过度抽样(oversample),会提高样本的效率。
但是,考虑到目前城镇化速度非常快,而作为一个具有长期规划的调查项目,它虽然不是纵向追踪调查,但是对历年调查数据的比较分析仍然将是反映我国社会变迁趋势的重要途径。因此,保证抽样设计的长期性和稳定性以使得历次调查数据之间具有较高的可比性非常关键。随着我国城市化水平的快速推进,未来的城乡人口比重很可能迅速继续变化。另外,虽然很多研究都强调农村人口的相对同质性,但是这种状况也在不断发生变化。事实上,目前我国很多农村人口也不以从事农业劳动为主,其异质性在迅速增强。基于以上原因,本方案不基于城乡进行分层。
3.2总体界定
抽样框的目标总体设定为中国境内居民户(household)及上述居民户中全体家庭成员。随调查要求不同,可以任意年龄段、任意居住时间的家庭成员为目标总体。
调查总体界定为年度调查时点居住在除港澳台之外的、非机构住宅家庭户(noninstitutional household),以及上述家庭户中拥有中华人民共和国国籍的居民。
样框总体根据抽样方案有所不同。在实地抽样时,如采用地图地址清单方式,则上述调查总体的界定可转换为调查时点最终抽样单元(SSU)的行政辖区内所有可居住建筑物中居住的家庭户和居住人口。如采用住户名册方式,则上述调查总体的界定转换为调查时点最终抽样单元(SSU)的行政辖区有效住户名册中所有的家庭户和居住人口。
3.3 各级抽样单元的界定与资料
3.3.1 抽样步骤
采用多阶段混合概率抽样(Multi-stageComposed Sampling)的方式来建立。以全国城市区、县(含县级市、自治县、旗)为初级抽样单元(PSU),以行政村、社区居委会为二级抽样单元(SSU)。以2010年“6普”资料为准,全国PSU数为2873,SSU为683427。
首先在抽中的PSU样本中,获得下辖的SSU清单,而后抽取SSU样本;然后在SSU样本中:(1)绘制建筑物分布图,列举住户地址,而后抽取相应的地址住户样本;或(2)制作住户名册,而后抽取相应的住户样本;最后在抽中的地址住户样本或名册住户样本中,抽取受访者。
3.3.2 各级抽样单元资料的收集
PSU清单资料以国家统计局第六次人口普查数据库为准,另外收集各区县的经济类指标。
SSU资料有两种来源,一是国家统计局第六次人口普查数据库,另一个是民政部基层政权司行政村、社区居委会资料,但是考虑到民政部资料由抽中的各区县提供,资料的年份与统计口径有所差别,最终以国家统计局第六次人口普查数据为准。
SSU内住户资料一般有两个来源:一是辖区内住户名单,需要通过但人口的流动影响变动较大;另一种是以辖区内住宅地址为主由我院调查与数据中心派遣抽样员赴各地SSU绘制、制作。
3.4 PSU抽取方案与结果
作为满足全院居民调查的抽样框,不同的研究项目受研究目的和研究经费所限,在代表性方面的要求是不同的,有的需要样本具有省级代表性,有的具有全国代表性,所以需要根据不同的需求设计抽样框。不过目前如果完成具有省级代表性的抽样框,在执行成本方面鉴于研究经费所限是无法完成的,设计了侧重于地理-行政区域的代表性的六大行政区抽样框(简称“六大区”抽样框),按经济地理区域区分东中西部划分的抽样框(简称“东中西”抽样框),同时还有具有全国代表性的简约型抽样框,直接加总推断全国。
3.4.1 东中西抽样框PSU抽取
以全国区/县为初级抽样单元(PSU),目前设计PSU抽取数为151。目前抽样框中全国县/市/区(PSU)数量为2870个,按东中西部省份划分为3个子总体(见表1)。
从常住人口比例看,东部、中部、西部分别占41.3%、31.7%、27%,以此比例分配PSU样本,东部、中部、西部的PSU样本近似分为62个、48个、41个(见表2),其中东部和西部的PSU样本受舍入误差影响,与实际人口分布略有差别。
每个子总体内的PSU,按照下述指标分层:
A. 经济发展类指标:
a) 人均GDP
b) 非农人口比重
c) 二、三产业产值比重
B. 人口结构指标:
d) 常住人口数
e) 少儿比(0~14岁人口)
f) 劳动人口比重
g) 60岁以上人口比例
C. 教育水平指标:
h) 文盲率
i) 高中以上文化程度比重
j) 平均受教育年
对上述指标采用隐含分层(Implicitstratified)方式综合排序,而后按照PPS(与单位大小成比例的概率抽样)方式,在每一子总体中,抽取相应数目的县/市/区。
另外,考虑到研究者对于特定研究地点有必选的要求,在PSU抽取中,东、中、西部各有5套,可以自由组合以扩大抽样的选择性,最后,在东、中、西各5套方案中分布抽取一套作为最终抽样框,具体分布见图1。
3.4.2 六大区代表性抽样框
除按经济与社会发展划分的东、中、西三大区域外,根据地理-行政区域的分布,还有东北、华北、华东、中南、西北、西南6大地理-行政区域划分方法,为满足研究需要,把6大地理-行政区域划分为6个子总体(见表3),要求样本既能分别推断不同区域,也能加总推断全国。
表3 六大区地域划分表
以全国区/县为初级抽样单元(PSU),目前抽样框中全国县/市/区(PSU)数量为2870个,目前设计PSU抽取数为151。按东北、华北、华东、中南、西北、西南省份划分为6个子总体,确定每个子总体的PSU样本数(见表4)。
在每个子总体内部对PSU分层的指标,与东中西代表性抽样框相同,并对这些指标采用隐含分层(Implicitstratified)方式综合排序,而后按照PPS(与单位大小成比例的概率抽样)方式,在每一个分层中,抽取相应数目的县/市/区(见图2)。
上述PSU抽取结果,6大区域各有5套,可以自由组合以扩大抽样的选择性。
3.4.3 简约型抽样框抽样设计
考虑到有些研究项目,只需要全国某个或部分省级区域的代表性,或只需要以最少的省级调查推断全国居民,课题组设计了简约型抽样框。此抽样框按地理大区以典型抽样的方式,在东北、华北、华东、华中南、西北、西南各选一个省份进行省级抽样,作为全国代表性的样本。而后以追加抽样的方式,提供2个补充区域的省份。其组合方式为:河北、辽宁、浙江、安徽、河南、广东、四川(或重庆)、甘肃(或新疆)(见图3)。
简约型抽样框的各级抽样方式、省级以下抽样单元的抽取的方式和步骤与前两种抽样框相同,每个省内抽取PSU数为10(见表5)。
3.5 SSU抽取
考虑到抽样框要为全院同时进行的多个调查项目服务,需要建立平行的数套样本框。在此设计中,以同时进行3项大型调查项目为准,在SSU的抽取应3倍于单一项目。
根据从上一级抽中的PSU相关部门获得的村(居)委会户数、人数统计名册作为抽样框,以PPS的方法在每一个PSU内独立抽取3套SSU样本,每套样本为4个村(居)委会,全国共抽取1812个村(居)委会。
3.6 居民户抽取
居民户(Household)的抽取采用简单随机抽样。为了覆盖更多的外来常住人口,推荐采用基于地址的抽样(address-basedsampling)的方式。即对所有抽中的SSU进行地域绘图,派出抽样员,现场了解行政范围,画出社区抽样图,将村/居委会辖区内的所有建筑物绘制并列举出住户地址,形成地址抽样框数据库。在获得社区(居委会/村委会)的抽样框后,根据社区(居委会/村委会)的性质,确定访社区(居委会/村委会)的接触样本量。用简单随机抽样或等距抽样方式抽取若干地址,作为该社区(居委会/村委会)的接触家庭户。对于不考虑覆盖外来人口的调查项目,可直接采用当地社区的住户名册形成抽样清单,用SRS或等距抽样方式随机数表抽取若干家户或人口。
3.7 受访者抽取
针对不同项目,受访者可以是全部家庭人口,或家庭中的某位成员。在后一情况下通常采用Kish表抽样。
3.8 权重计算
3.8.1 设计权重
本方案的抽样设计在社区层次(居委会/村委会)是近似自加权的,因此,设计权重可以通过如下方式计算得到:
3.8.2 实际执行情况调整
本抽样方案为了保证目标样本量,对接触样本量进行了扩大,调查的执行力度将影响最终有效调查样本量,因此需要再次进行权数调整。设某个居委会(村委会)最后有效样本量为,则该家庭户的实际执行调整权数为:
3.8.3 最终权数的确定
每个有效调查校本的最终权数等于每个家庭户的初始设计权数与执行情况调整权数的乘积,即:
4 结语
在中国社会快速发展时期,定期、系统地收集社会公众各个方面的数据,对于更好地了解国情、反映民意有重大的学术意义和现实意义。项目组立足服务中国社会科学院多学科的全国居民调查,在设计上综合考虑了不同学科研究项目的要求和执行能力,设计出代表性不同的三类抽样框。目前,这些抽样框已为中国社会科学院的社会学、政治学、法学、新闻传媒等领域的重大调查研究提供了科学而规范的基础平台。同时,也应看到,随着全国居民调查抽样框建立,后续的调查访问执行、调查管理、数据处理和信息发布与共享,还有巨大的工作待以开展。中国社会科学院将长期与地方学术机构合作,不断维护和更新抽样框资料,建立全国性调查执行队伍。这也为今后的科研手段创新、科研规范化管理提出了挑战。
作者简介:
李炜:中国社会科学院社会学研究所,研究员,博士,主要研究方向为社会调查方法研究、社会问题研究。
张丽萍:中国社会科学院社会学研究所,副研究员,博士,主要研究方向为社会调查方法研究、人口社会学研究。
封面图片来自网页:http://www.procewise.com/_d276459643.htm
篇幅有限,参考文献省略。
点击左下方“阅读全文”,直达《科研信息化技术与应用》官网,下载pdf版全文。