主页 > E惠生活 >《美国总统选后》传统抽样民调没有失常,与网路大数据民调互补可

《美国总统选后》传统抽样民调没有失常,与网路大数据民调互补可

《美国总统选后》传统抽样民调没有失常,与网路大数据民调互补可
Randy Stewart, blog.stewtopia.com. Feel free to use this picture. Please credit as shown.If you are a person that I have taken a photo of, it's yours .
民调未死,但大数据当道

过去一週,席佛应该睡不太着觉。这位经营着富有盛名的 fivethrityeight.com 网站,前几次精準预测美国大选的民调专家,在这次的美国大选惨遭滑铁卢。席佛的网站和着作成为众矢之的,甚至有人说「民调已死,大数据才是王道」。

同样的恐慌,在各大专家、媒体、研究机构和相关的工作者中蔓延,众人纷纷试图解释传统民调失準及川普为何当选的原因,但若不真正去了解传统民调的优劣,往往就只能沦于瞎子摸象,只能在事后找理由,而看不见全貌。

网路大数据民调一定比较好?

随着使用网路的人口越来越多,年龄层也逐渐向上提升,透过分析网路上的社群行为,一定会是未来的趋势,但真的能完全淘汰传统民调吗?

要比较两者的优劣之前,必须先把两者定义清楚。 只要是「主动」透过「提问问题」而得知受访者的意向,就是传统民调。因此不论是透过手机电话、通讯软体或是网路问卷,都算是传统民调。而「被动」的「观察或蒐集网路上所有使用者的公开社群行为」,才能算是网路大数据民调。

抽样永远不準:传统民调的必要之恶

根据统计上的定理,只要全部受访者的特徵和整个母体相符,那幺只要访问一定数量的民众就可以得知全体人民的意向。举个例子,在 10 月底时非北北基的人口佔全台湾人口比例约为 70.06%。那幺,以一份有效样本为 1,100 的全国性电话民调来说,就必须要有非北北基的民众约 748 人。如果要拆得更细,让调查结果更準确,样本的居住地分配至少要符合全台各县市,甚至是各乡镇的人口比例,除了居住地,还有年龄、性别、教育水準、收入水準……等各种特徵,如果不顾这些特徵,就等于分别在台北与台南做蔡英文民调,差距肯定天差地远。

但当有无数的特徵需要顾及时,误差也因此产生了。经济学人分析这次民调失準的原因,就是归因于选举模型中将低教育水平的白人投票率估得太低了。误差的大小,则取决于样本和母体有多相似。两者越接近,自然民调的结果就会越準确。除了样本的特徵外,样本大小也是决定误差的另一个关键因素。

而这也是让专家们跌破眼镜的关键因素。数据应用建立在一个前提:数据是真实的。当民众拒绝访问,或是在访问时说假话,传统民调完全无力可施。此次选举,投给川普的人被贴上「低教育水準」、「歧视」、「没钱的白人」这几个标籤,这种社会压力,很可能使得许多川普支持者在接到访问电话时拒绝受访,或是故意说假话。

尤其是,当媒体的立场明确时,做出来的民调结果往往会和媒体立场相近。这并不是说媒体特别假造数据,而是立场不同的群众先天上可能就不太愿意回答。就好像是台湾的泛蓝电视台所做的电话民调,泛绿选民拒访的可能性会高于泛蓝选民。大家只要看看目前各家智库对于小英政府的满意度民调差距可以到数十趴,就可看出端倪。

被动观察:网路大数据民调的先天限制

网路大数据民调则能够同时解决样本不足与民众说假话的问题,且社群资料只有一份,谁来做都是一样结果,自然就不会被民调製作者的立场影响。但,网路大数据仍然有其侷限:

第一个问题是社群网路使用者的分布未必等同于母体分布,目前社群网路的使用者仍然多半为年轻人。

第二个问题,也是网路大数据民调先天的限制,来自于只能「被动观察」。

由于传统民调是设计问题让受访者回答,为了提高精确度,都会有选项让受访者选择,也就是用是非题或选择题的方式来呈现,因此答案不会有含糊不清的状况。但是社群行为上的发言没有一定的格式,语意往往难以界定。例如某位网友表示「我也不知道朱立伦当总统有没有比较好」,并不能推导出支持蔡英文的结论。当然我们可以继续蒐集这位网友其他的公开社群行为来验证。但传统民调因为能直接访谈,的确较网路大数据民调较能区分受访者态度。

第三个造成偏差的原因,则在于非公开的社群行为无法被侦测。

由于目前尚未有理论去估算这些误差,因此各机构所发表的网路大数据民调,都不会有类似传统民调提供在多少信心水準下误差为多少的相关数据。但从民调的本质来思考,民调本来就是在试图「理解当下的状况」,只要将所谓网路大数据民调,理解成「社群网路使用者」的态度,由于社群网路使用者众多,且资料可以长期追蹤分析,这个崭新且仍在发展中的技术还是具有相当大的参考价值。

不是对抗,而是互补

和一般想法不同,其实传统民调与网路大数据民调两者并非是单纯的对抗关係,而是有很大的互补效果 ,就像是倚天剑与屠龙刀,总是要两者相碰,才能得到藏在其中的秘笈。以当下的技术和限制,同时执行传统民调和网路大数据民调并交叉对比分析,才是能将两者好处极大化及误差及小化的作法。

透过这次美国总统大选我们可以观察到,选前民调一面倒的预测希拉蕊将会顺利当选,还会以相当大的幅度胜出,更让民调流于成为操弄的工具,丧失了科学的精神。这样的现象,应该是使用民调的各行各业所应该避免的。

相关推荐