《见闻阅读》由华尔街见闻出品(了解阅读委员会)。每晚10点10分发布。这背后是20多位常驻主讲人、中外50多家出版机构,每年330读物,我们一起“坚持阅读”。

书名:《统计思维》

作者: 【日】西内启

出版方:浙江人民出版社

主讲人:Steven Li 摩根大通(JPMorgan Chase)执行董事和高级经理

美国哥伦比亚大学获得博士学位后在华尔街银行从事了十年以上金融风险管理工作。熟悉市场风险,信用风险,模型风险等领域的量化建模工作。持有CFA和FRM证书。公众号“Steven的风控斋”作者。

曾在《见闻阅读》中讲读《货币霸权》、《金融科技创新》、《大衰退:宏观经济学的圣杯》、《美国金融制度的历史变迁》、《关于贝叶斯理论,你终于彻底能懂了

在当前这个信息爆炸式增长的时代, 大数据,人工智能和机器学习成为学术界和工业界各个领域专业人士乃至普通大众津津乐道的话题。这一次向大家介绍的这本书《统计思维》,主题是数据分析的基础和利器——统计学。本书的作者西内启是一位日本学者,中文版由浙江人民出版社发行。虽然内容是统计学,但是作者通过生动丰富的实例和轻松诙谐的语言,而不是刻板的公式和概念,以通俗读物的形式向广大的读者介绍统计学这样一门博大精深,应用广泛的科学,的确是一件非常了不起的事情。

尽管统计学涉及到许多复杂的原理和精巧的方法,但统计学的基本概念与我们并不陌生,而是无所不在的渗透在我们的日常生活中。可以说,哪里有数据,那里就有统计学的身影。统计学在商务和政务决策,教育,医疗,生活生产中具有极其广泛的应用,以至于我们在很多时候对于统计学概念的应用都是不自觉和下意识的。本书的开篇正是以这种贴近生活的体验为基础,首先讲述了均值和方差这两个最基本,最直观以至于普通大众都耳熟能详的概念

根据人口普查的数据, 我们可以得到诸如全国的成年男性的平均身高,普通城镇居民的平均收入等重要的统计量。在全国和地区升学考试中,通过计算考生的平均分数,并加上成绩的标准差(也就是方差的平方根)的某一倍数,我们可以定义一个合理的分数线。

均值和方差尽管貌似普通,却具有很深奥的统计意义,我们切不可小看它们。 它们在统计学的广泛应用绝对不仅仅是因为计算的方便或是概念上的直观。概率论中可以严格证明,在我们对某一个变量大量观测取样的基础上,得到的数据分布会以平均值为中心在其周围波动,呈现出一个钟形曲线的分布形状,而波动的范围取决于数据分布的方差或者标准差。这一钟形曲线就是我们熟知的正态分布。这就是统计学中赫赫有名的中心极限定理,它是统计学应用的最重要的基础原理。

我们常常用到的一个估算某个被统计量大概范围的方法是用平均值加减标准差的两倍,得到的区间是95%数据的大体分布范围的方法, 用到的正是这个定理的结论,也就是假设数据服从正态分布。

在我从事的金融行业中,几乎每天都要与正态分布打交道。人们对正态分布的感情可以说是毁誉参半,十分复杂。一方面,正态分布的使用在数学处理上十分方便,又有严格的理论基础。无论是在资产定价还是风险管理方面,都具有非常广泛的应用。然而,当前几乎所有的金融类学术期刊都充斥着大量批评正态分布的文章。"非对称",“厚尾性”,“波动率的聚集性”等等金融资产分布的特性,被认为是无法用正态分布刻画的,人们甚至认为正态分布在金融定价模型上的滥用是导致2008年金融海啸的罪魁祸首之一。

当然这种指责也并非全无根据。根据正态分布假设计算得出的结论是,像2008年金融危机期间出现的,能够导致雷曼公司和贝尔斯登这样的大投行破产清算这样大规模的资产下跌,平均几千年才会出现一次,而在危机期间不到几个星期的时间之内这样的震荡多次出现。不过,正如一些清醒的人士所指出的那样,人们由此应该汲取的正确教训应该是:统计或数学模型并不能代替实际的经济和金融运作,在应用模型的时候应该时刻牢记模型的局限,而不是在任何情况下都盲目地套用模型。

以上是题外话,有些扯远了。回到均值和方差的概念上来,与之对应的,作者在这一部分还讨论了另外两个紧密相关的概念,也就是中位数和平均偏差。前者是将数据划分为数量相等的两部分,这两部分分别低于和高于中位数。后者则是数据点与均值之差绝对值的平均值。

中位数尽管不那么为人所知,但是在许多情况下却是被人们认为比均值更为合理的,用来反映数据总体水平的统计量。比如人们会对某一企业平均薪酬为50万表示不屑。在这些企业中,大多数情况是,CEO和高管们的薪酬大大高于普通员工,因此拉高了平均值,但是由于低薪酬的普通员工在数量上占绝大多数,因此平均薪酬并不能反应公司薪酬的真正水平;相反的,薪酬的中位数则能够更加准确的反应这一点。举个简单的例子,一个10人的部门,1名高管薪酬为100万,9名普通员工薪酬均为5万。该部门的平均薪酬为14.5万。听起来是一个很可观的数字,但事实上只有高管1人的薪酬达到并超过该值,而其余9人的薪酬均低于这一均值。如果用中位数来衡量,则合理的多。该部门10人薪酬的中位数为5万,正好与普通员工的水平相符。

平均值有如此的缺陷,为什么还被这样广泛得应用呢?除了我们前面讲到的理论上的原因,也就是中心极限定理,作者还揭示了实际应用层面的考虑,也就是考察某一商务决策的绩效。比如通过直邮广告提高销售量的措施,可能影响的只是1%的高消费人群。在这种情况下,如果考虑中位数则会被认为广告没有起到效果,因为中位数没有变化。而均值则会受到影响——1%高消费人群消费的变化会引起总体消费均值的变化。在这种情况下,显然均值比中位数更加适合作为绩效考察的依据。

说到绩效考察,我们经常会使用统计检验,来考察某一统计量的显著性。比如某一临床药物的作用是否显著,使用某一新工艺是否能够显著得提高生产效率等等。在对这些显著性进行统计检验的时候,往往引入两个假设,即原假设——显著性不存在,以及备择假设——显著性存在,也就是拒绝原假设。作为统计人员,人们会犯两类错误,使用作者的术语,冒失鬼会犯刚愎自用的错误,也就是倾向于唐突地拒绝原假设,认为显著性存在,从而兴奋得宣布发现了某一新大陆;与此相反,糊涂虫会犯过度谨慎的错误,即过于谨小慎微,以至于总是倾向于接受原假设,否认显著性的存在。

这两类错误在我们的实际工作和生活中屡见不鲜。统计检验中通常的做法是:控制第一类错误,也就是冒失鬼错误出现的概率,这一概率在原假设条件下出现显著性作用的概率,实际中通常取为5%或1%。比如在某一药物的临床试验中,即使药物本身对治疗疾病并无效果,由于其他偶然因素比如患者本身的条件等,也会观察到患者的康复,即使这种康复与药物的作用并无关联。在给定第一类错误概率的条件下,我们尽可能地减少犯第二类错误的概率。不犯第二类错误的概率,也就是不做糊涂虫的概率,统计上成为统计功效(statistical power)。需要指出的是,统计功效与样本量也就是观测数据量密切相关。只有样本量足够大才能达到一定的统计功效。

考察显著性,离不开因果分析,也就是某一诱因与结果的关系。数学上,称诱因为解释变量,而观测结果为因变量或成为结果变量(outcome)。作者根据解释变量与结果变量的取值类型,对相应的统计方法进行了归纳和总结。取值类型的划分有两种——类型变量和数值变量。类型变量是指两种或多种有限离散的种类,比如性别,国籍,是否吸烟等等。数值是连续的数字变量,比如身高,体重,销售收入等等。当然,两者在一定的条件下根据使用的方便可以相互转化。比如将男女性别分别用0和1表示,在统计学上称为哑变量(dummy variable)。相应的,像年龄这样的数值变量,也可以通过分组转化为类型变量,比如0-20岁为少年,20-30岁为青年,30-50岁为中年,50岁以上为老年等等。根据变量类型的不同,作者通过一个简洁易懂的列表,总结了所适合使用的不同统计方法。

如果解释变量为类型变量,我们感兴趣的往往是两组或多组数据之间平均值或比例的差异,一个常用的例子是医学中两组患者,分别是接受和没有接受过某种特定的临床药物的治疗,其他条件相同。需要比较的是两组患者的康复情况。用统计语言表达就是两组患者的康复比例的差异是否显著。是否显著的判断标注是通过比较两组患者康复比例或康复状态的平均值,计算出一个概率值,我们称之为p值。p值越小则说明显著性越强。这一点与我们之前讲到的假设检验密切相关。p值在本质上就是犯第一类错误,也就是冒失鬼错误的概率。

根据统计检验的结论我们可以判断药物的有效性。在这种情况下使用的工具是统计上的z检验或t检验。具体使用哪一种检验则取决于观测患者数量的多少。在大数据的情况下, 使用z检验是最快捷方便的方法。z 检验的前提是数据大体服从正态分布。而我们前面讲过,在数据量较大的时候,中心极限定理保证了数据的均值会非常接近正态分布。实际当中这一假设的条件非常宽松,我们并不真的需要成千上万的海量数据,一般在数据量达到几十或者上百的时候z检验已经能够给出非常准确的结果;如果数据量过少,比如只有10几个甚至更少,那就要考虑使用t检验。t检验可以被看作是在数据量较少的情况下对z检验的一种修正。在数据量非常少的时候,比如只有几个数据点,我们可以用排列组合公式准确地计算出统计量的p值,也就是差异的显著程度。这种方法称为费歇尔确切概率检验,最早出自著名的女士品茶问题。

感谢大家关注《见闻阅读》,欢迎点击图片,留下您对我们产品的任何感(tu)受(cao),帮助我们为您提供更好的服务。