查看原文
其他

从零开始学统计:一个临床狗的统计学习历程

2016-09-22 李凯 医咖会

作者:北京医院神经内科 李凯医生


先说下我的背景吧,经历了国内医学院校的教育,继而走上了临床医生的工作岗位。一开始埋头看病人,学课本、专业书、指南、文献。在医学知识的海洋中茁壮成长,觉得都挺顺的。


忽然完成住院医师规培,晋完主治,抬头一看,哎呀,要走入科研的队列了!要不然再这么晃下去就要变成可怕的千年老主治了。于是跑到德国来读博士,开始了科研相关知识的集中学习,第一个重中之重就是统计学。


血泪控诉下大学里的统计学教育,讲的无聊,教的不实用。毕业几年忘了个一干二净。当时教的SAS虽然高大上,但是贵啊,而且少见。所以我的统计学学习基本是从零起步的。一开始也很畏难,后来慢慢才算入了点门。其实一般临床医生小打小闹弄点科研,玩转SPSS基本就差不多了,再高大上的统计学知识和软件,我辈也无暇顾及了。


今天分享的目的是让统计走下神坛,不再是让我们遥遥仰视的高冷女神,而变成人人都可以接近的邻家小妹。


先说说大家为什么要用统计学工具?


当然是为了发论文咯!咱们不要这么直白好不好。主要是为了证明xx对xx有作用,或者xx和xx相关等。如果没有统计作帮手,审稿专家就会说:我不服,谁知道是不是抽样误差!所以,从功利的角度讲,我们统计的目的就是为了得到那个P<0.05,搞定审稿人和编辑,让论文顺利发表。


但是,看起来分析数据就是弄些卡方检验、t检验、方差分析、非参数检验、相关、回归,最后搞到那个P。但总有些地方让人不好下手。就像在森林里面,似乎前面有一条路,但真走起来,却又充满大石头。


今天我们换个思路,用一个简单的例子,谈谈我是如何从一个数学知识为零,完全不懂那些公式的统计小白,变成依然不懂那些公式,但能凑合着用SPSS把这些分析做起来的业余选手的。

第一. 要找到几本统计书当工具书


可以上网找资料,泡论坛,多学学精华贴。手里有粮,心里不慌。我在丁香园统计版泡了一段时间,大家推荐过的中文书基本都屯在自己手上了,有的重理论,有的重操作,可以相互参照。


第二. 要知道自己想要什么样的分析


比如你手上有两组病人,一组吃A降糖药吃了两个月,另一组吃B降糖药也吃了两个月,比较两组的血糖下降有无区别。如果统计学基础好,你会知道这叫比较两独立样本均数,说人话就是滥大街的t检验。如果你统计学基础不好不知道该用什么统计方法呢?不用急,99.9%的可能你的文章没那么新颖,前人总做过差不多的研究。看看人家文献(敲黑板:注意!是好一些的英文杂志的文章!)用什么。哦,人家用的t检验。好了,咱们就攻t检验吧。


第三. 看看能不能用这个检验,也就是它有什么应用条件(assumptions,翻译成应用条件很直观)。


t检验虽然看起来好欺负,怎么叫参考书一说那么麻烦。原始数据需要满足三个条件:独立性、正态性和方差齐性。独立性似乎还好,病人间的血糖也不会传染。正态性和方差齐性怎么证明啊。别急,有两条路。1. 上网搜下,正态性检验、方差齐性检验,自然会有人手把手的告诉你。2. 仔细阅读相关高质量文献,看看文献都会介绍用了什么方法检验是否正态分布,最常用的是Kolmogorov-Smirnov test和Shapiro-Wilk test(SPSS里面有)。至于方差齐性,SPSS很聪明,自动就做了。


第四. 操作


大概知道前面是什么路了,大概有哪些石头也摸清楚了。下面就要具体上路绕过大石头。首先要录入数据,SPSS的方式很直观,一个患者就是一行,每个变量为一列(找个例子一看就明白)。然后做正态性检验。在菜单分析下找描述统计,进而探索,如下图。

 


(点击可查看大图)


找到探索,点击它,把要分析的变量(比如血压、血糖之类的)放到因变量列表里面,分组变量(比如不同治疗组、男女之类的)放到因子列表里面。

 


(点击可查看大图)


然后,重点来了。点右边的绘制(上图大红箭头处),会出现下面的选择界面,橙箭头所指的带检验的正态图是必须要勾的。

 


(点击可查看大图)


然后就是一路继续、确定,SPSS就告诉我们正态性检验的结果啦。找到下面这个框框,Kolmogorov-Smirnov test和Shapiro-Wilk test的各个sig(就是P)都>0.05,说明两组都是正态分布的。接下来我们就可以继续欢快的进行t检验了。

 


(点击可查看大图)


然后在菜单的分析里面找比较均值,然后你会高兴的看到独立样本t检验就在那里。 



(点击可查看大图)


和刚才检验正态分布相似,要分析的变量扔到检验变量那里,分组变量扔到分组变量那里,在黄箭头所指的定义组里面把代表分组的1和2输进去。

 


(点击可查看大图)


如果新手上路的话,先什么都不用管,到这步直接点确定。SPSS就乖乖把报告呈现给我们了。

 


(点击可查看大图)


SPSS很贴心的,第三列sig 0.147就代表方差齐性检验的结果,sig就是P,P>0.05说明两组方差齐。直接看第6列的那个sig的第一行0.553,就代表我们最关心的那个P>0.05。说明两组没有明显差异。任务完成!!!



当然,真实课题中统计分析没有这么简单,关于t检验,后续我们还会有更详细的讲解,此处只是一个例子,大家不要着急。不过和t检验类似,每种检验方法都有基本款和豪华款的区别。像我今天给的步骤,算是基本款,很容易掌握。只会这些也可以得到发文章需要的最基本的数据了。大家可以看到,每一步还有其他的选项可以变动,有的地方多打个勾、少打个勾,选项里面调一调。如果时间精力不够,多数保持默认状态就可以了。等熟练掌握基本款后,再根据书上和网上的材料进一步的提高。


今天这篇文章主要是给大家信心的。即使像我一样零基础,白手起家,充分利用市面上的书籍、互联网上的资源、相关的文献,也是可以做好自己课题所需的统计分析的。


当然,未来我们的公众号会深入浅出地手把手教给大家如何选择合适的统计学方法,如何判断是否满足应用条件,满足时如何做,不满足时如何做;出了结果如何解读,如何在文章中呈现等。让大家少走些弯路,多快好省的做好医学科研。


医咖会微信

medieco-ykh

微信二维码
长按即可关注

如果你认为统计学有用,那么,是时候关注医咖会了。


点击左下角“阅读原文”,了解医咖会既往推送的内容。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存