01
幸存者偏差
二战期间,调查人员发现幸存的轰炸机中,机翼中弹的数量很多,而机身中弹的却很少。因此第一反应是认为应该加固战机的机翼,因为看起来机翼是最容易受到攻击的地方。恰恰不是,因为机翼中弹虽然多但飞机还能飞回来,所以机翼中弹并没有影响飞机返航。而看到的机身中弹的少,则说明了子弹打中机身对飞机的影响太大导致飞机不能返航,已经机毁人亡了。在这样一个决策问题中,如果只根据幸存下来的飞机作统计而下结论定决策,是错误的。
这就是幸存者偏差,它指的是只看到经过某种筛选而产生的结果,而没有意识到筛选过程本身的问题,因此忽略了被筛选掉的关键信息,产生决策上偏差。数理统计是数据分析的基础,但是在实际运用中,数理统计也会有“陷阱”。幸存者偏差就是这样的“陷阱”。对普通人来说是陷阱,但对专业人士来说应该是常识。
02
新冠疫情数据陷阱
当一种不明的疫情发生之后,特别是多人出现类似相近症状,可能一开始还认识不到它的厉害之处,只能叫“不明原因肺炎”。依据受感染者的症状来诊断,可能需要看其病灶,细究病因,询问患者吃过啥、去过哪、接触过啥等等。
流行病学的研究方法可能包括观察、实验、数学模型分析,甚至包括模拟疾病流行的过程,以探讨疾病流行的动力学,为疾病的预防和控制等制订策略。从科学研究的角度来看,这些都似乎无可非议。特别是一些重大的传染性疾病,不搞清楚一些根本问题和原因,也不敢妄下结论。
实际上,病毒给你看到只是它给你看到的那些面,比如,来到医院看病的几个有限病例、其他事发地采集的样本,实际上可能还有很多的信息你并没有看到,或者基于时间或者基于手段的原因没有看到,比如,没有来到医院的死亡者,或者受到感染却还没有发作的人群,包括携带病毒自己却不发作只传染他人的人,以及其他都还没有出现的各种情况(事实上,到现在还有很多问题在不断认知中),也甚至包括病毒可能已经在社会上游荡较长一段时间以筛选宿主(曾经有文章推测在12月之前甚至最早可能在10月就已经出现了病毒)。
不讲数据当然不行,但如果机械地只讲数据,试图形成完整的证据链,用数据说话。看上去,极为符合科学精神、程序正义。但这样的“唯数据“论,可能就会导致幸存者偏差,被带到沟里去。数据未必就是事实! 用有限的样本数据,来对一个可能是灾难性的后果作出肯定性的预测。
传染病例分析的相关性,其实与大数据分析的相关性有相似之处。结论的正确与否取决于你的样本数量、样本质量、样本采集的方法,也就是样本本身的代表性。既然在一开始只获得了有限的样本,又何以能自信满满地得出“有限人传人”的结论?“有限人传人”看似采用科学方法得出的结论,却恰恰成为疫情预警的错误指导。
这样的数据问题就如同:抽烟的大爷还不是活到了90岁!(抽烟早死的人已经死了无法说话),淹死的都是会游泳的(不会游的人根本就没去游泳)。
03
疫情预警需要“先声夺人”
因为疫情就是战争,是不宣而战!战争是零和游戏,只有你死我活!敌人已经攻破城门!生存必须分秒必争!无所作为的每一天都可能使病毒得以指数级地传播。 治病需要小心求证,但预警却需要大胆假设甚至“先声夺人”。
疫情预警需要快速决断机制!生命健康高于一切。非要等到一切数据齐全,证明敌人不是虚张声势,证明敌人不是外强中干,再来考虑加固城防、退敌之策,岂不是误国误民!
另外,机械地把过去的观察结果当成某种确定的认知应用于指导不确定的未来,这实际上也是大数据预测的困境之一。可能对于病毒疫情尤其如此!自然界我们还没有认知到的东西太多。“教条主义”害死人!
“有限人传人”本身就是一个伪命题。有限是指什么有限?– –有限的方式?有限的区域?有限的时间?有限的人群?有限的环境?有限的感染率?…有限只是无关痛痒的定语,但“人传人”却是非常致命的核心。
正如同张玉蛟教授所说:控制传染病,必须防患于未然。医院里出现血迹,必须先当HIV 阳性来处理。既然病毒感染“不能够排除人传人”,处理上必须先当“人传人”,否则就晚了,这是全世界的医学常识。
疫情预警,不能通过一个看似科学的方法来作出一个违背常识的决策。