馬上注冊,,結(jié)交更多好友,,享用更多功能,讓你輕松玩轉(zhuǎn)社區(qū),。
您需要 登錄 才可以下載或查看,,沒有帳號,?點(diǎn)這里注冊
x
本帖最后由 靜聽花開花落 于 2018-12-3 13:45 編輯
作者 七君
我們平時(shí)在做重大決策的時(shí)候,,比如擇校啊,選專業(yè)啊,,總是會參考這些比較對象的硬指標(biāo),,比如它們的錄取率啊,,就業(yè)率啊等等。像是,,哪個(gè)學(xué)校的就業(yè)率高,,我們就會去報(bào)考這個(gè)學(xué)校。
da20cf749bd34020b29e8447ee5fb02d.jpg (127.4 KB, 下載次數(shù): 139)
下載附件
保存到相冊
2018-12-3 13:45 上傳
統(tǒng)計(jì)數(shù)字可以幫助我們了解這些比較對象的優(yōu)劣,,讓我們做出明智的決策,。不光是個(gè)人,公司和國家也是這樣做決策的,。那么這樣做對嗎,?
其...實(shí)...不...對
今天我們就來介紹一個(gè)讓人非常頭疼,但非常有用的悖論,,它會告訴你,,很多時(shí)候統(tǒng)計(jì)數(shù)字相當(dāng)不可靠,特別容易誤導(dǎo)人,。
先來看一個(gè)假設(shè)的例子。
小明生了慢粒白血病,,她的失散多年的哥哥找到有2家比較好的醫(yī)院,,醫(yī)院A和醫(yī)院B供小明選擇就醫(yī)。
小明的哥哥多方打聽,,搜集了這兩家醫(yī)院的統(tǒng)計(jì)數(shù)據(jù),,它們是這樣的:
醫(yī)院A最近接收的1000個(gè)病人里,有900個(gè)活著,,100個(gè)死了,。
醫(yī)院B最近接收的1000個(gè)病人里,有800個(gè)活著,,200個(gè)死了,。
作為對統(tǒng)計(jì)學(xué)懵懵懂懂的普通人來說,看起來最明智的選擇應(yīng)該是醫(yī)院A對吧,,病人存活率很高有90%�,�,!總不可能選醫(yī)院B吧,,存活率只有80%啊,。
呵呵,如果小明的選擇是醫(yī)院A,,那么她就中計(jì)了,。
就這么說吧,如果醫(yī)院A最近接收的1000個(gè)病人里,,有100個(gè)病人病情很嚴(yán)重,,900個(gè)病人病情并不嚴(yán)重。
在這100個(gè)病情嚴(yán)重的病人里,,有30個(gè)活下來了,其他70人死了,。所以病重的病人在醫(yī)院A的存活率是30%,。
而在病情不嚴(yán)重的900個(gè)病人里,870個(gè)活著,,30個(gè)人死了,。所以病情不嚴(yán)重的病人在醫(yī)院A的存活率是96.7%。
在醫(yī)院B最近接收的1000個(gè)病人里,,有400個(gè)病情很嚴(yán)重,,其中210個(gè)人存活,因此病重的病人在醫(yī)院B的存活率是52.5%,。
有600個(gè)病人病情不嚴(yán)重,,590個(gè)人存活,所以病情不嚴(yán)重的病人在醫(yī)院B的存活率是98.3%,。
畫成表格,,就是這樣的——
醫(yī)院A:
病情
| 死亡
| 存活
| 總數(shù)
| 存活率
| 嚴(yán)重
| 70
| 30
| 100
| 30%
| 不嚴(yán)重
| 30
| 870
| 900
| 96.7%
| 合計(jì)
| 100
| 900
| 1000
| 90%
|
醫(yī)院B: 病情
| 死亡
| 存活
| 總數(shù)
| 存活率
| 嚴(yán)重
| 190
| 210
| 400
| 52.5%
| 不嚴(yán)重
| 10
| 590
| 600
| 98.3%
| 合計(jì)
| 200
| 800
| 1000
| 80%
|
你可以看到,在區(qū)分了病情嚴(yán)重和不嚴(yán)重的病人后,,不管怎么看,,最好的選擇都是醫(yī)院B。但是只看整體的存活率,,醫(yī)院A反而是更好的選擇了,。所謂遠(yuǎn)看是汪峰,近看白巖松,就是這個(gè)道理,。
這讓人很抓狂,。萬一我們真的患上了什么病,又遇到了這種類似的情況,,豈不是會讓自己掉坑里,?大韓民國這么多小明就是因?yàn)檫@個(gè)原因去世的嗎?到底這是怎么回事,?
實(shí)際上,,我們剛剛看到的例子,就是統(tǒng)計(jì)學(xué)中著名的黑魔法之一——辛普森悖論(Simpson's paradox),。辛普森悖論最初是英國數(shù)學(xué)家愛德華·H·辛普森(Edward H. Simpson)在1951年發(fā)現(xiàn)的,。
辛普森悖論就是當(dāng)你把數(shù)據(jù)拆開細(xì)看的時(shí)候,細(xì)節(jié)和整體趨勢完全不同的現(xiàn)象,。
辛普森悖論:同一組數(shù)據(jù),,整體的趨勢和分組后的趨勢完全不同。
從統(tǒng)計(jì)學(xué)家的觀點(diǎn)來看,,出現(xiàn)辛普森悖論的原因是因?yàn)檫@些數(shù)據(jù)中潛藏著一個(gè)魔鬼——潛在變量(lurking variable),,比如在上面這個(gè)例子里,,潛在變量就是病情嚴(yán)重程度不同的病人的占比。
|