馬上注冊(cè),,結(jié)交更多好友,享用更多功能,,讓你輕松玩轉(zhuǎn)社區(qū),。
您需要 登錄 才可以下載或查看,沒(méi)有帳號(hào),?點(diǎn)這里注冊(cè)
x
本帖最后由 靜聽(tīng)花開(kāi)花落 于 2018-12-3 13:45 編輯
作者 七君
我們平時(shí)在做重大決策的時(shí)候,,比如擇校啊,選專(zhuān)業(yè)啊,,總是會(huì)參考這些比較對(duì)象的硬指標(biāo),,比如它們的錄取率啊,就業(yè)率啊等等,。像是,,哪個(gè)學(xué)校的就業(yè)率高,我們就會(huì)去報(bào)考這個(gè)學(xué)校,。
da20cf749bd34020b29e8447ee5fb02d.jpg (127.4 KB, 下載次數(shù): 146)
下載附件
保存到相冊(cè)
2018-12-3 13:45 上傳
統(tǒng)計(jì)數(shù)字可以幫助我們了解這些比較對(duì)象的優(yōu)劣,,讓我們做出明智的決策。不光是個(gè)人,,公司和國(guó)家也是這樣做決策的,。那么這樣做對(duì)嗎?
其...實(shí)...不...對(duì)
今天我們就來(lái)介紹一個(gè)讓人非常頭疼,,但非常有用的悖論,,它會(huì)告訴你,很多時(shí)候統(tǒng)計(jì)數(shù)字相當(dāng)不可靠,,特別容易誤導(dǎo)人,。
先來(lái)看一個(gè)假設(shè)的例子。
小明生了慢粒白血病,,她的失散多年的哥哥找到有2家比較好的醫(yī)院,,醫(yī)院A和醫(yī)院B供小明選擇就醫(yī),。
小明的哥哥多方打聽(tīng),搜集了這兩家醫(yī)院的統(tǒng)計(jì)數(shù)據(jù),,它們是這樣的:
醫(yī)院A最近接收的1000個(gè)病人里,,有900個(gè)活著,100個(gè)死了,。
醫(yī)院B最近接收的1000個(gè)病人里,,有800個(gè)活著,200個(gè)死了,。
作為對(duì)統(tǒng)計(jì)學(xué)懵懵懂懂的普通人來(lái)說(shuō),,看起來(lái)最明智的選擇應(yīng)該是醫(yī)院A對(duì)吧,病人存活率很高有90%�,�,!總不可能選醫(yī)院B吧,存活率只有80%啊,。
呵呵,,如果小明的選擇是醫(yī)院A,那么她就中計(jì)了,。
就這么說(shuō)吧,,如果醫(yī)院A最近接收的1000個(gè)病人里,有100個(gè)病人病情很?chē)?yán)重,,900個(gè)病人病情并不嚴(yán)重,。
在這100個(gè)病情嚴(yán)重的病人里,有30個(gè)活下來(lái)了,,其他70人死了,。所以病重的病人在醫(yī)院A的存活率是30%。
而在病情不嚴(yán)重的900個(gè)病人里,,870個(gè)活著,30個(gè)人死了,。所以病情不嚴(yán)重的病人在醫(yī)院A的存活率是96.7%,。
在醫(yī)院B最近接收的1000個(gè)病人里,有400個(gè)病情很?chē)?yán)重,,其中210個(gè)人存活,,因此病重的病人在醫(yī)院B的存活率是52.5%。
有600個(gè)病人病情不嚴(yán)重,,590個(gè)人存活,,所以病情不嚴(yán)重的病人在醫(yī)院B的存活率是98.3%。
畫(huà)成表格,,就是這樣的——
醫(yī)院A:
病情
| 死亡
| 存活
| 總數(shù)
| 存活率
| 嚴(yán)重
| 70
| 30
| 100
| 30%
| 不嚴(yán)重
| 30
| 870
| 900
| 96.7%
| 合計(jì)
| 100
| 900
| 1000
| 90%
|
醫(yī)院B: 病情
| 死亡
| 存活
| 總數(shù)
| 存活率
| 嚴(yán)重
| 190
| 210
| 400
| 52.5%
| 不嚴(yán)重
| 10
| 590
| 600
| 98.3%
| 合計(jì)
| 200
| 800
| 1000
| 80%
|
你可以看到,,在區(qū)分了病情嚴(yán)重和不嚴(yán)重的病人后,,不管怎么看,最好的選擇都是醫(yī)院B,。但是只看整體的存活率,,醫(yī)院A反而是更好的選擇了。所謂遠(yuǎn)看是汪峰,,近看白巖松,,就是這個(gè)道理。
這讓人很抓狂,。萬(wàn)一我們真的患上了什么病,,又遇到了這種類(lèi)似的情況,豈不是會(huì)讓自己掉坑里,?大韓民國(guó)這么多小明就是因?yàn)檫@個(gè)原因去世的嗎,?到底這是怎么回事?
實(shí)際上,,我們剛剛看到的例子,,就是統(tǒng)計(jì)學(xué)中著名的黑魔法之一——辛普森悖論(Simpson's paradox)。辛普森悖論最初是英國(guó)數(shù)學(xué)家愛(ài)德華·H·辛普森(Edward H. Simpson)在1951年發(fā)現(xiàn)的,。
辛普森悖論就是當(dāng)你把數(shù)據(jù)拆開(kāi)細(xì)看的時(shí)候,,細(xì)節(jié)和整體趨勢(shì)完全不同的現(xiàn)象。
辛普森悖論:同一組數(shù)據(jù),,整體的趨勢(shì)和分組后的趨勢(shì)完全不同,。
從統(tǒng)計(jì)學(xué)家的觀點(diǎn)來(lái)看,出現(xiàn)辛普森悖論的原因是因?yàn)檫@些數(shù)據(jù)中潛藏著一個(gè)魔鬼——潛在變量(lurking variable),,比如在上面這個(gè)例子里,,潛在變量就是病情嚴(yán)重程度不同的病人的占比。
|