辛普森悖论
我们的编辑器将检查你提交并决定是否修改这篇文章。
- 相关主题:
- 统计数据
辛普森悖论,也叫Yule-Simpson效应,在统计数据产生影响,发生在两个分类变量的边际关系从本质上不同于部分相同的两个变量之间的关系在控制了一个或多个其他变量。辛普森悖论三个关键的原因是很重要的。首先,人们常常希望统计关系是不可变的。他们经常不。两个变量之间的关系可能会增加,减少,或甚至改变方向根据所控制的变量的集合。第二,辛普森的悖论不仅仅是一个不起眼的现象只是一小群统计学家的兴趣。辛普森悖论实际上是一个大型的协会悖论。第三,辛普森悖论提醒研究者,因果推论,尤其是在非实验研究,可以是危险的。失控,甚至未被注意的变量,这些变量会消除或扭转协会观察两个变量之间可能存在。
插图
理解辛普森悖论是最简单的上下文一个简单的例子。假设一个大学是关心性别偏见在研究生院的招生过程。研究,申请者大学的研究生项目分类是基于性和录取结果。这些数据似乎符合性别偏见的存在因为男性(40%的人承认)更有可能被录取比女性(25%的人承认)。
识别来源的入院率为男性和女性的差异,大学将申请人根据他们是否应用于自然科学的一个部门或一个在社会科学中,然后再进行分析。令人惊讶的是,大学发现,性行为和结果之间的关系的方向逆转。在自然科学部门,女性(80%的人承认)更有可能被录取比男性(46%的人承认);同样,在社会科学部门,女性(20%的人承认)更有可能被录取比男性(4%的人承认)。
尽管辛普森在协会中观察到的逆转悖论似乎令人困惑,它实际上是简单。在这个例子中,它发生因为性和招生都与第三个变量相关,即部门。首先,女性更有可能适用于社会科学部门,而男性更有可能适用于自然科学部门。第二,社会科学部门的验收率远低于自然科学部门。因为女性比男性更有可能申请录取率较低的项目,当部门(即被忽视。,当数据聚合在整个大学),似乎女性比男性更不可能录取,而相反的是真的。虽然假设象这样的例子简单构造,许多现实生活中的例子可以很容易找到在社会科学文献和统计数据。
定义
考虑三个随机变量X,Y,Z。定义一个2×2×K通过假设交叉分类表X和Y可以编码0或1,Z可以指定值从1到吗K。
边际之间的联系X和Y在崩溃或评估聚合在的水平Z。的部分协会之间的X和Y控制了Z是之间的关系X和Y在每一个级别的Z或调整后的水平Z。辛普森悖论据说发生在边缘的模式协会和部分协会的模式是不同的。
存在各种各样的指标,评估两个变量之间的关系。分类变量的优势比和相对风险率是两个最常见的措施。辛普森悖论是应用于不同的两个分类变量之间的关系,无论如何关联测量。
协会悖论
协会悖论,其中辛普森悖论是一种特殊的情况下,可能发生之间的连续(一个变量可以取任意值)或分类变量(变量只能取特定值)。例如,最著名的测量协会两个连续变量之间相关系数。众所周知,边际两个变量之间的相关性可以有一个标志,而部分相同的两个变量之间的相关性在控制了一个或多个另外的变量有相反的迹象。
逆转悖论,即边际和部分协会两个变量之间有不同的迹象,比如辛普森悖论,最引人注目的协会的悖论。弱形式的协会悖论发生在边际和部分协会有相同的迹象,但边际协会的大小超出范围的值部分关联计算在个体水平的变量被控制。这些被称为合并或聚合悖论。