一,非抽样误差的定义: 市场调查活动必不可少地会产生误差,如何减少误差,提高精度这是委托方和市场咨询公司最关注的焦点之一。 要减少误差,首先要了解误差来自于哪里?如何对各种误差进行分类?不同类别的误差有什么样的方法可以预防?如果误差已经发生了,采用什么样的方法可以弥补? 按最简单的分类方法,误差可以分为两类,一类是抽样误差,另一类是非抽样误差。所谓的抽样误差是由抽样的随机性引起的,一般意义上来说是无法减少的。而非抽样误差是指除抽样误差以外所有的误差的总和。引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。应该说非抽样误差的产生贯穿了市场调查的每一个环节,任何一个环节出错都有可能导致非抽样误差增加而使数据失真。我们平时说的控制误差主要指的就是控制非抽样误差。 对于非抽样误差的定义和分类也是到了近代才逐渐清晰和明确起来,最初,鲍德威在1915年提出所谓的误差有四个来源分别是: ·获得的信息不正确或不真实 ·定义和标准不严格、不确切、不适当 ·样本不能代表总体 ·部分数据对于总体的估计将要产生的误差 在鲍德威的四个误差来源中,前两个都是非抽样误差。鲍德威对于各种误差提出了比较简略的分类方法,而戴明在他的基础上对非抽样误差进行了比较全面和系统的分类。戴明认为误差除了抽样误差以外一般应该包括以下部分: ·回答的变异性 ·不同类型和不同水平的访问员 ·访问员引起的主观偏差 ·委托方对于数据的期望(人为影响) ·问卷设计的缺陷 ·抽样前后总体发生的变化 ·无回答的偏差 ·过时记录的偏差 ·数据缺乏代表性 ·解释数据的误差 在戴明以后,西方又有许多关于非抽样误差的论文出现,对非抽样误差的成因和分类进行了比较完整的阐述。一般而言,非抽样误差可以分为三类,分别是:抽样框误差、无回答误差和计量误差。
二,抽样框误差:
所谓的抽样框误差指目标总体和抽样总体不一致时产生的误差。理想的抽样框需要满足以下要求,就是所有的抽样单位必须覆盖目标总体,对于较为简单的单阶段抽样,抽样框要求每个目标总体单位都应该对应着一个抽样单位,抽样单位必须相互独立,互不重叠,并且唯一地与目标总体相连接。如果目标总体与抽样总体不一致时就产生了抽样框误差。抽样框误差在简单抽样框和复杂抽样框中都会出现。所谓的简单抽样框主要适用于简单随机抽样,就是抽样框没有任何辅助信息,只是对样框内的数据按原样随机排列。复杂抽样框指抽样框附加了一些辅助信息。这些信息将使抽样更符合总体的特征值。举一个简单的例子,比如要抽查上海市所有零售企业的销售状况,假如事先知道上海市零售企业规模的分布情况,就可以根据这个分布比例采用分层抽样的方法。如果分布比例是正确的,那么分层抽样的精度要高于简单随机抽样,而如果比例不正确,那么误差更大。这里的分布比例就是所谓的辅助信息。 抽样框误差有五个来源,分别是: ·不能覆盖目标总体单位 所谓的不能覆盖目标总体单位,指的是目标总体单位没有出现在抽样样本中,那么他们就不可能在随后的抽样过程中被选中,导致数据丢失。 ·与不能覆盖相对应的就是,抽样样本包含了非目标总体单位 包含非目标总体单位主要是由于目标总体的变化产生的误差。相对于不能覆盖的误差而言,包含非目标总体单位误差比较容易被发现。 ·复合联接 复合联接的意思就是一个目标总体单位联接着一个以上的抽样单位。比如,有的家庭拥有两个住所、两个地址,那么他们被选中的概率就是一般家庭的两倍。复合联接的对象如果具有某些特征值就会使样本失真,导致均值发生偏差。 ·抽样框老化 统计数据有很强的即时性,随着时间的推移,抽样框必须更新,否则就会老化不符合实际情况使抽样不精确。最典型的例子,就是随着城市建设的大规模展开,许多地区已经被改造,地址发生了完全的变化,如果依旧按以前的抽样框去抽样,那么精度就会非常难以控制。 ·辅助信息不正确 前面四种抽样框误差会发生在简单抽样框也会发生在复杂抽样框,而辅助信息不正确只可能出现在复杂抽样框内。一般,较大规模和较复杂的抽样必须采用复杂抽样框,就是必须要有辅助信息。如果辅助信息不准确,就会导致复杂抽样的效果反而不及简单随机抽样。 建立一个准确、及时的抽样框是减少误差的基础,在现实生活中,有缺陷的抽样框并非不能用,关键看如何去弥补和弥补的成本有多高。 减少抽样框误差一般有以下一些方法: ·联接丢失单位 这种方法主要适用于不能覆盖总体单位而引起的误差。所谓联接丢失单位的意思就是把抽样样本丢失的个体和抽样样本中某个值相联结,比如说上海最近兴建了某几个小区,而事先在抽样的过程中并不知晓,那么可以把这几个小区与最相近小区相联接,如果最近小区被抽中,那么就可以视为新建小区被抽中并接受相应的调查。联接丢失单位最重要的基础是在抽样的过程中能发现被丢失的单位,如果不能发现,那么联接丢失单位也就无从谈起。 ·采用辅助样框 有许多时候,一个样框不能含盖抽样的总体,比如进行商业调查时,商委系统的名录一般只包括国有和集体企业的情况,而对于一般私营或有外资介入经营的商业网点的情况不太了解,那么如果对全上海的商业网点进行调查,就必须要采用辅助样框,即在国有集体企业的样框之外,增加一个私营和外资商业网点的样框,把两个样框合在一起进行抽样。辅助样框最大的问题是抽样目标会重叠,他可能既隶属于主样框又隶属于辅助样框,该目标总体被选中的可能性就增大。 ·及时更新样框 这是解决样框老化和辅助信息不准确最有效的方法。当然样框更新需要较大的资金投入。所以一般样框更新可以采用分批更新,一年更新样框的20%,分5年更新样框的方式。 ·对复合联接的处理 复合连接一般又可以分为两种情况,一是所谓的多对一,就是一个目标单位与一个以上的抽样单位相连接,一对多的情况则相反。多对一的错误在抽样调查中对数据精确性的影响更大,所以这里主要讨论如何解决多对一的复合联接误差。最简单的方式就是利用复合联接的调查数据对目标总体单位数以及目标总体总量和均值进行估计。另外一种方法就是确定唯一的联接规则,让多个抽样单位只有一个进入到抽样总体中,比如对拥有多户地址的家庭可以确定其最近一次居住的地址为抽样对象。
三,无回答误差:
所谓的无回答误差就是指的数据丢失,数据丢失的原因有两种,一是有意不回答,二是无意不回答。有意识不回答,主要指被调查者拒绝访问或拒绝就某一个问题给予回答。无意识不回答则可能受访者不在家或者是访问者疏忽,导致数据遗漏。 无回答误差产生的原因有很多,归纳起来的话有以下几点: ·抽样遗漏 所谓抽样遗漏的概念就是抽样过程中没有抽到一些本应调查的抽样单位,这在邮寄调查中最普遍。邮寄调查最大的缺陷就是愿意回答和不愿意回答的人有不同的特征值,而不愿意调查人群中有相当部分应该在被调查的范围以内。这种误差产生的后果是比较严重而且非常难以调整的。 ·无法查找到被访对象 无法查找最主要的原因是被访对象的地址不确切或者已经迁移,导致无法寻找到被访对象。 ·虽然已经接触到被访者,但因为种种原因被迫放弃调查 被迫放弃的原因很多,首先是访问者拒访,这占了被迫放弃误差的绝大多数。另外被迫放弃还有几种可能,比如被访者因为健康原因不能接受或完全接受采访。 减少无回答误差的方法有如下几种: ·访问员 访问员是抽样调查质量控制环节中非常重要的一环,对于访问员的控制必须从甄选就开始实施。访问员必须要有相当的责任心,而且访员要有相应的学历背景,可以保证他们对于问卷的理解不出太大的偏差。对于访问员的培训也显得非常重要,一般没有任何经验的访问员是很难完全掌握访问技巧的,特别在有难度的问卷上,没有经验或经验很少的访员一般不与采用。访员需要从简单的街访做起,最后才进行入户访问。访问员的培训分为两个方面,一是沟通技巧地提高,二是责任心地培养。咨询公司需要建立一整套非常完善的质量控制体系,对访员的访问进行及时而又准确的控制。 ·加强与被访者的沟通 加强与被访者的沟通就是所谓提高沟通技巧,这些方法又可以分为两类,一类是与消费者初次见面时的沟通技巧,二是某个专项问题的沟通技巧,比如如何询问消费者的收入状况等等。沟通的技巧有很多,比如有所谓的沃纳模型,利用沃纳模型对个人偷漏税进行调查时,将问题的不同答案写在两叠卡片上,一叠卡片上写着"我有过漏税行为"另一叠上写着"我没有漏税行为"让被访者就这个答案表示自己同意与否,因为访问员并不知道被访者抽到的是哪一种卡片,所以对被访者而言就有一定的保护作用,鼓励其给予真实的答案。沃纳模型是相对比较简单的一种模型,不过在实际使用中,效果比较明显。 ·事先通知 在访问员接触到被访者之前,先进行一定的沟通比如电话等等,消除消费者的疑虑,然后再进行正式的访问,将会极大地降低拒访率。 ·物质奖励 物质奖励要适度,如果过高,会使消费者有讨好访问员的倾向,使数据的真实性产生偏差。如果过低,则起不到应有的作用,不能降低因无回答而产生的误差。 ·多次访问 多次访问指第一次访问被拒绝后,进行第二次乃至于第三次的访问,直到被访者愿意接受采访为止。这种做法从保证数据精确性上来看非常好,但是实际操作中难度很大。多次访问在邮寄和电话采访中采用较多。 ·替换 替换就是在某个抽样单位拒绝接受采访以后,放弃该单位,寻找与其背景相同的人作为替换进入抽样总体。替换可以随机替换,也可以按照KISH等人的所谓等同寻找替换等方式。替换有其优点,就是实际操作相对于多次访问要简单,但是如果不是随机替换,就需要事先了解被访者的背景,这一般是很难做到的。纯粹随机替换又会造成抽样总体与目标总体之间产生较大的差异。而且使访问的随意性增加,最后影响到数据的真实性。 减少无回答误差的方法还有很多,比如二重抽样和加权法等等。这里就不一一阐述了。
四,计量误差:
计量误差可以分为三类,一是问卷设计阶段产生的误差,二是调查阶段产生的误差,三是其他误差。 问卷设计产生的误差,主要来自于不同措辞的不同表达。包括文字表达本身产生歧意,文字表达不够简练等等。一般问卷要求用词简单,不要用专业用词。第二切记在问卷中出现倾向性和诱导性的词汇。美国曾经搞过一个民意调查,对一个问题的两种提法导致了两种不同的结果,一种问法是"艾森豪威尔将军说,陆军部和海军部应当合并为统一的作战部",结果同意的比例为49%,另外一种问法只是把艾森豪威尔的名字去掉,结果同意的比例为29%,两者之间有显著性的差异。权威者的姓名在这里产生了诱导的作用。第三要注意措辞的平衡。所谓的平衡指的是,"对于这个问题你同意还是不同意?"而不仅仅是"这个问题你同意吗?" 问卷设计阶段产生的误差还有相当一部分来自于不同问题的顺序和间隔。有些问题彼此之间必须按一定的顺序出现否则就会导致数据失实。而有的问题则必须保持一定的间距,否则也会产生误差。 问卷设计阶段另外一个误差来源就是,问卷设计过长,导致访问者疲劳而产生数据失真的现象。 计量误差另外一个重要的组成部分就是调查阶段产生的误差。调查阶段产生的计量误差来自于两个方面,一是访问员有意或无意导致数据失真,二是被访者有意或无意导致数据失真。对于被访者误差的研究主要集中在被访者无意导致数据偏差上。受访者无意使数据失实主要的原因有以下几个: ·理解错误 这是很容易理解的一种误差。受访者因为各种各样的原因对于问卷本身没有很好的理解,他的所有的回答就没有意义。对于理解错误最简单的纠错方法就是在问卷中设置一些逻辑检查题,检查受访者在逻辑上是否有明显的错误,再决定这样的样本是否继续使用。 ·记忆误差 记忆误差是计量误差当中非常重要的组成部分。记忆误差又可以包括调查事件间隔时间太长的误差和心理倾向的误差。所谓心理倾向的误差主要指的是消费者对于某些数字有天然的倾向性,比如调查消费者吸烟的支数,消费者一般会回答5支、10支、1包等等,而类似于3支,4支的回答则非常少。对于记忆误差的纠正方法一般有两个,一是控制调查周期,二是对于记忆类的问题一般问"上次"比问"平均"要精确得多。比如问"您上次饮用了几瓶啤酒"比"您平均一年饮用几瓶啤酒"要好许多。 其他计量误差包括,随机数字表的编制和使用,数据处理过程中(包括编码、录入)发生的误差,等等。这些误差都可以通过比较有效的质量控制来加以限制。 总的来说,目前在中国还很少有专门的市场调查机构对误差进行系统的研究,而在这方面德国、日本特别是美国的研究非常深入。精度是市场调查的生命线,所以很有必要对误差特别是可以控制的非抽样误差要进行深入、系统地探讨,形成自己规避误差的模型。
|