解书 | 数据,新式胡扯,拆穿它!-资讯-知识分子

解书 | 数据,新式胡扯,拆穿它!

2022/03/20
导读
图片




早间新闻说,上个月的消费指数上升了n个点;


手机上跳出实时的股票涨跌,顺便可以看一下上市公司的年报以判断股票前景;


工作例会上,你使用的数据PPT模板让展示更加美观有趣,获得老板好评;


你心情不错想听听音乐,音乐APP跳出你的上周听歌时长统计,再听n首便可升级;


一把游戏结束,系统自动送上战力统计,你的队友明显拖了后腿,下次不要和ta组队了;


此时手机又提醒你视屏时间过长,建议休息一下,因为科学研究表明,连续视屏超过x小时便会使视力下降y%……


如今,我们每天、每时、每刻都被各种数据包围、淹没。这些信息有的只是作为日常生活的点缀,大可一笑了之;而有的则会成为决策的依据,变得举足轻重。

我们信任数据,认为数据总是客观情况的客观反映。可真的如此吗?今天,赛先生为大家拆解一本中信出版社出版的新书——《拆穿数据胡扯》。


640


【美】卡尔·伯格斯特龙,杰文·韦斯特  著 ,胡小锐  译

中信出版·鹦鹉螺,2022年3月


01 本书的缘起?


本书来源于美国华盛顿大学的“拆穿胡扯”(Calling Bullshit)公开课。这门课由生物学教授卡尔·伯格斯特龙和信息学副教授杰文·韦斯特联合主讲。


他们从逻辑和传播渠道的角度揭开数据伪科学如何产生与传播。目的是说明一个事实:即使你不是一名专业的统计学家、计量经济学家或数据科学家,你也能批判性地思考那些定量论证;无须大量数据和数周时间,也能看穿胡扯。只要有基本的逻辑推理,在需要的时候,再辅以通过搜索引擎轻松获取的信息,通常就足以解决问题了。课程一经上线,广受好评,显然,识别数据陷阱,已然成为当代生活的刚需。


本书作为课程讲义的衍生品,作者保留了课程辛辣的原名,中文版译名为《拆穿数据胡扯》。本书共有12章,400余页,洋洋洒洒,内容全面,通读本书,我们会更从容地应对数据冲击,将事实与虚妄区分开来,毕竟——真相只有一个。


▶ 目录:


推荐序1 科学地对抗科学的胡扯的“胡扯” / V

推荐序2 拨开扯淡的迷雾 / IX

推荐序3 闲得没事也别胡扯 / XIII

前 言 / XVII

第1章 胡扯无处不在

惯于欺骗的甲壳类动物和狡猾的乌鸦 / 003

狡辩之词和律师的语言 / 008

谎言传千里,真相难出门 / 012

第2章 媒体、信息和错误信息

印刷厂就是妓院 / 022

不加渲染的事实宛若凤毛麟角 / 025

偏见性、个人化和对立 / 029

错误信息和虚假信息 / 033

新型造假者 / 037

第3章 胡扯的本质

胡扯与黑箱 / 048

刑事机器学习 / 051

第4章 因果关系

夜晚天空红艳艳,水手脸上笑容现 / 060

关于因果关系的思考 / 064

相关性不会增加报纸销量 / 068

延迟享乐与共同原因 / 076

伪相关性 / 078

吸烟不会导致死亡?/ 083

如果其他方法都行不通,那就人为操控吧 / 084

第5章 数字与胡扯

提取数字 / 095

有害的百分比 / 098

古德哈特定律 / 106

数学滥用 / 110

僵尸统计数据 / 115

第6章 选择偏倚

你看到什么取决于你看的是哪儿 / 126

隐藏在墨菲定律背后的原因 / 129

帅哥和顶级程序员 / 137

音乐才华的致命危险 / 143

消除选择偏倚 / 148

第7章 数据可视化

数据可视化的发端 / 158

鸭子!/ 162

水晶鞋和丑陋的继姐 / 166

邪恶的轴 / 177

比例油墨原理 / 192

第8章 大数据与胡扯

机器是怎么看到东西的 / 213

废料进,废品出 / 219

同性恋雷达和胡扯的结论 / 221

机器是怎么思考的 / 226

机器为什么失败 / 230

第9章 科学的易感性

检察官谬误 / 242

p 值操纵和发表偏倚 / 251

点击诱饵科学 / 260

胡扯科学的市场 / 265

科学为什么有用 / 271

第10章 辨别胡扯

1. 质疑信息来源 / 278

2. 小心不公平的比较 / 281

3.如果好得或糟糕得不像是真的…… / 284

4. 从数量级考虑 / 287

5. 避免证真偏差 / 292

6. 考虑多个假设 / 295

辨别网上的胡扯 / 296

第11章 驳斥胡扯

使用归谬法 / 306

要让人难以忘记 / 308

寻找反例 / 311

使用类比 / 312

重新绘制图表 / 314

使用零模型 / 316

揭穿者心理 / 319





02 何为数据胡扯?


伯格斯特龙和韦斯特认为:


胡扯就是全然不顾事实、逻辑连贯性或实际传递的信息,而是利用语言、统计数字、数据图表和其他表现形式,通过分散注意力、震慑或恐吓等方法,达到说服或打动听话人的目的


数据胡扯的最终目的,是通过有意为之的操作,使本应该客观的数据,为己所用。


我们暴露在胡扯面前的时间和几率可能远远超过我们所认为的,形式也是五花八门。


03 数据胡扯的视觉把戏——形式大于内容


我们先来看这样一个例:下面这个图形的设计者用两个餐叉的尖齿代表条形图中的条形。


640

这样做有什么坏处呢?坏处很多:

1

条形是图形中承载信息的部分,但它们在这张图中只占了很小一部分空间

2

倾斜的角度也会引发争议,因为读者不习惯解读这种角度的条形图;

3

两把餐叉并排,但底部水平线并没有对齐,容易造成错觉;

4

幸好数值被写出来了。但如果必须依靠数值来解读图形,为什么不直接用表格呢?


胡扯就是公然无视事实和逻辑连贯性,企图通过分散注意力、震慑或恐吓来说服或打动受众。这样的图表设计方式试图让图表变得『可爱』以取悦读者,结果让读者更难理解它表示的数据,逐渐变成胡扯,得不偿失。


另一种流行的图表形式是带标签的示意图。这种图的“重灾区”之一,就是PPT


谁没用过几个看起来丰富、有趣又清晰的PPT模板呢?或者自创一些可爱的模型,就像这只独角兽。



640



然而图表上的标签毫无道理可言。前肢与“机器学习”和“可视化”有什么关系?为什么“R编程”与后腿有关呢?右后腿为什么没有加标签?为什么头部的“分析型思想者”指的是一种人,而身体的其他部分指的是技能?……


这种胡扯的PPT图形,是不是很常见呢?还有一种更接近纯粹胡扯的现象——数学滥用,而且它并不罕见。


数学滥用(Mathiness)指的是那些看起来都像是数学表达式的东西,但它们和数学可以说是毫无关系。


比如信任方程:



640


按照这个方程,当自利感降到最低时,信任度就会非常高。但它到底是什么意思呢?这些量如何测量,单位又是什么?如果只是要表达正相关还是负相关,那么大可不必采取这种形式,它不但无用,还会让人费解。


04 科学领域有胡扯?当然!


不幸的是,科学领域也会屡屡中招。例如,有的期刊会在1月份发表更多文章,这样一来,这些文章本年度被引用的机会就会增加。所有这些反常的行为都违背了期刊的使命,削弱了引用数作为质量指标的有效性。类似地,对科研人士的论文数量指标催生了只要给钱便可发表文章的“掠夺性期刊”,也让科研领域成为了胡扯的高发地带。


虽然掠夺性期刊的主要客户是给简历增色的边缘学术人,但也包括气候怀疑论者、反对疫苗者、神创论者和艾滋病否认论者。他们以版面费为代价换取在科研领域的“一面之地”,然后说他们的边缘信仰通过了“同行评议”的科学。这是典型的胡扯污染。



640


作为读者,我们没有任何万无一失的方法,可以确定无疑地知道一篇科学论文是否完全正确。但作者提醒我们,至少要保持合理的怀疑,这是辨别胡扯的第一步。比如注意论文中的论断与它是在哪儿发表的是否相匹配,尤其要警惕低层次期刊上出现的异乎寻常的论断。


如果一篇名为《尼安德特人灭绝于英法百年战争的证据》的论文出现在并不引人关注的《威斯特法阶历史地理学杂志》上,这就绝对值得怀疑了。如果这一成果是真实的,就会彻底改变我们对古人类历史的理解,那它理应会出现在一本备受瞩目的期刊上。


05 辨别胡扯6步法



▫ 质疑信息来源 

▫ 当心不公平的比较 

▫ 如果好得或糟糕得不像是真的……

▫ 从数量级考虑 

▫ 避免证真偏差 

▫ 考虑虑多个假设 


辨别可能的胡扯的最终目的,是指斥胡扯。然而清除胡扯的代价要远远高于制造胡扯,哪怕真正符合科研方法论的论文也是如此。这就是所谓的『造谣一张嘴,辟谣跑断腿』。


指斥胡扯不只是为了增强自信,它还是一种道义上的责任。正如我们在开头所说,世界充斥着各式各样的胡扯,有些是无伤大雅的,有些是小麻烦,还有一些甚至很有趣,但很多胡扯会给科学的诚实和生死攸关的决策带来严重的后果。


“数据成了新式胡扯的杀手锏”。但我们绝不否认科学是理解物理世界的一个成功的标准手段。不管我们抱怨什么,不管我们发现了什么偏见,不管我们遇到什么问题,不管我们说了什么废话,科学最终还是会成功的。


希望本书能帮助你面对冲击,将事实与虚构区分开来。





撰文|-小赛-
编辑|-winner-

制版编辑|-小圭月-


参与讨论
0 条评论
评论
暂无评论内容
《赛先生》微信公众号创刊于2014年7月,创始人为饶毅、鲁白、谢宇三位学者,成为国内首个由知名科学家创办并担任主编的科学传播新媒体平台,共同致力于让科学文化在中国本土扎根。
订阅Newsletter

我们会定期将电子期刊发送到您的邮箱

GO