《思维模型》读书笔记(一)

以下文章选自《思维bingo》
 
作者: 斯科特•佩奇 
 
出版社: 湛庐文化/浙江人民出版社
 
原作名: The Model Thinker: What You Need to Know to Make Data Work for You
 
译者: 贾拥民 
 
出版年: 2019-11-1
 
豆瓣评分:8.2
 
斯科特·佩奇是风靡全球的“模型思维课”主讲人,有超过100万各行各业的人反复学习并从中受益。本书讲解了24种模型,从线性回归到随机漫步,从博弈论到合作,涵盖学习、工作、生活诸多方面,是一个应对复杂世界的思维工具箱。它将帮助你整理数据、提取信息、去伪存真,运用多种思维模型做出正确决策。
 
01 做一个多模型思考者
 
 要想成为一个智慧的人,你必须拥有多个模型。而且,你必须将你的经验,无论是间接的,还是直接的,都放到构成这些模型的网格上。
 
——查理.芒格
 
 模型是用数学公式和图表展现的形式化结构,它能够帮助我们理解世界。掌握各种模型,可以提高你的推理、解释、设计、沟通、行动、预测和探索的能力。
 
无论数据给我们留下的印象如何深刻,它都不是灵丹妙药。我们也许可以通过数据了解到已经或者正在发生什么,但是很难理解事情为什么会发生。更何况经验事实本身也可能是误导性的。
 
没有哪个领域不受模型的影响,甚至可以说根据不存在不需要模型的决策领域。
 
 模型能够让我们变得更聪明
 
如果没有模型,人们就会受到各种认知偏差的影响:我们会对近期发生的事件赋予过高的权重、会根据“合理程度”分配概率、会忽略各种基本比率。如果没有模型,我们处理数据的能力就会受到极大的限制。有了模型,我们就能澄清相关假设且更有逻辑地进行思考,还可以利用大数据来拟合、校准、检验因果关系与相关性。总之,有了模型,我们的思考会更有效。
 
 我们主张在给定情况下不仅使用一个模型,而要使用多个模型。多模型方法背后的原理基于这样一个古老的思想,那就是“管中窥豹需多管齐下”。
 
所有模型都有三个共同特征:
 
第一,它们都要简化,剥离不必要的细节,抽象掉若干现实世界中的因素,或者需要从头重新创造。
 
第二, 它们都是形式化的,要给出精确的定义。
 
第三:所有模型都是错误的,正如统计学大师乔治·博克斯(George Box)所指出的那样。所有模型概莫能外,即使是牛顿提出的那些定律和法则,也只是在特定的条件下成立。所有模型都是错误的,还因为它们都是简化的,它们省略掉了细节。通过同时考虑多个模型,我们可以实现多个可能情况的交叉,从而克服单个模型因严格而导致的狭隘性。
 
 智慧层次结构
 
什么是知识?
 
知识是对相关关系、因果关系和逻辑关系的理解。
 
什么是智慧?
 
层次结构的基础就是智慧。智慧就是指识别和应用相关知识的能力。智慧需要多模型思维。
 
采取行动时, 有智慧的人都会应用多个模型,就像医生会让病人做好几种检查来帮助诊断一样。他们使用模型来排除某些行为、选择某些行为。有智慧的个人和团队会有意让模型之间相互“对话”,探索不同模型之间的重叠和差异。
 
任何单个的模型都是不足的。唯有通过收集多样化且往往相互矛盾的解释, 我们才能最终实现对危机更完整的理解。
 
 做一个多模型思考者
 
考虑到这种复杂性,任何单个模型都更有可能遭到失败。当然,我们不应该抛弃模型,恰恰相反,我们应该将逻辑一致性置于比直觉更优先的位置;我们要成为多模型思考者。
 
构建模型是一门艺术,只能通过不断实践才能熟练掌握,这不是一项以观赏为目的的活动,需要刻意地练习。
 
  02模型的7大用途
 
 了解现实就意味着构建转换系统,这些转换系统或多或少都必须与现实相对应。模型的价值还体现在,它们能够把特定结果所需要的条件清晰地揭示出来。
 
构建模型的3种方法
 
1、具身法(embodiment approach)
 
用这种方法构建的模型包括重要部分,同时对于不必要的维度和属性,要么剥离,要么将它们整合在一起考虑。
 
2、类比法(analogy approach)
 
对现实进行类比与抽象。我们可以将犯罪行为传播类比为传染病传播。
 
3、另类现实法(alternative reality approach)
 
有意不去表征、不去刻画现实。这类模型可以作为分析和计算的“演练场”,我们可以利用这类模型探索各种各样的可能性。
 
另类现实法还允许我们进行现实世界中不可能的(思想)实验:如果我们能够加快大脑的进化,那么将会怎样?
 
 任何一个模型都必须是易于处理且便于交流的。
 
在描述模型时,我们不能在不给出正式描述的情况下直接抛出诸如信念或偏好之类的东西。信念通常可以表示为一系列事件或先验的概率分布。
 
而偏好则可以用多种方式来表示,比如用对一组备选项的排序或者一个数学函数来表示。
 
易于处理则是指适合分析的性质。
 
 模型的7大用途(REDCAPE)
 
推理(reason):识别条件并推断逻辑含义。
 
解释(explain):为经验现象提供(可检验的)解释。
 
设计(design):选择制度、政策和规则的特征。
 
沟通(communicate):将知识与理解联系起来。
 
行动 (act):指导政策选择和战略行动。
 
预测 (predict):对未来和未知现象进行数值和分类预测。
 
探索(explore):分析探索可能性和假说。
 
推理
 
从模型中得出的推论总是采用条件判断形式:如果条件A成立,那么可以得出结果B。例如,如果你要装箱,而大小是唯一的约束条件,那么就先装好最大的东西。
 
我们从经典文献和伟大思想家的名言中吸取的教训却通常不包括任何条件。相反的谚语经常共存,但是相反的定理却不会出现。两个定理,如果对何为最优行动有不同看法,必定会做出不同的预测;或者,给出了不同解释的定理必定有不同的假设。
 
解释
 
有人说,模型可以解释任何东西。这种说法没有错,模型确实可以。然而,基于模型的解释必须包括正式的假设和明确的因果链条,而且这些假设和因果链条都要面对数据。
 
设计
 
模型还可以通过提供框架来帮助设计,因为只有在适当的框架内我们才可以考虑不同选择的含义。工程师使用模型设计供应链;计算机科学家使用模型设计Web协议;社会科学家使用模型设计制度。 
 
交流
 
由于创造了一种共同的表示方法,模型能够有效地改进交流。模型要求对相关特征及其关系给出正式的定义,这使我们能够精确地进行交流。
 
很多人都低估了交流对人类社会进步的影响。一个无法交流的思想,就像一棵淹没在森林中的树,没有人会注意到它。启蒙时代显著的经济增长在很大程度上取决于知识的可传播性(知识通常表现为模型形式)。
 
行动
 
弗朗西斯·培根曾经这样写道:“人生的伟大目标,不在于知,而在于行。”良好的行动需要良好的模型。
 
在日常生活中,当我们准备采取某个重要行动时,也应该使用模型。用到的模型可能只是一些定性的模型而不一定有相应的数据支持,但是多模型思维会“迫使”我们向自己提出一些重要的问题。多模型激发思考。
 
预测
 
模型既可以用来预测特定的个别事件,也可以用来预测一般趋势。
 
探索
 
我们还会用模型来探索直觉。这种探索可能与政策相关:如果让所有城市公交车都免费,会怎么样?如果让学生自主选择作业来证实他们的课程成绩,会怎么样?我们可以提出很多假说,而且所有这些假说都可以用模型进行探索。
 
探索有时还涉及对共同假设进行跨领域比较。将一个模型用于多种用途,正是本书中将会反复出现的一个主题。
 
 03 多模型思维
 
 选择取决于用途:在预测时,我们经常需要大模型;而在解释时, 小模型则更好一些。
 
通过构建多个模型并使用多数规则,将比只使用其中一个模型更加准确。
 
使用多个模型和框架进行思考的人比使用单个模型的人预测的准确性更高。任何一种看待世界的单一方式都会遗漏掉某些细节,使我们更容易产生盲点。单模型思考者不太可能准确预测到重大事件,例如2008年的金融危机。
 
 分类模型
 
关键的思想是,相关属性的数量限制了不同类别的数量, 因此也就限制了有用模型的数量。
 
加入1个模型后可以改进8%,加入3个模型后改进幅度可以达到15%。请不要忘记,第二个和第三个模型不一定比第一个模型更好,它们也许会更糟。但是,即使它们的准确性稍差,但只要分类(字面意义)有所不同,就应该把它们加入进来。
 
我们的目标是尽可能多地构建有用的、多样性的模型。
 
多模型思维确实要求我们掌握多个模型,但是并不需要懂得非常大量的模型,只需要知道每个模型都可以应用到多个领域,这并不容易。成功的一对多思维取决于创造性地调整假设和构建新的类比,以便将为某个特定目的而开发的模型应用到新的领域。因此,要成为一个多模型思考者,需要的不仅仅是数学能力,更需要的是创造力。
 
 04 对人类行为者建模
 
 将人建模为基于规则的行为者(rule-based actor),或者将人建模为理性行为者(rational actor)。在基于规则的行为者集合中,我们考虑那些基于简单固定规则行事的人以及基于适应性规则行事的人。基于适应性规则行事的人能够根据信息、过去的成功或者通过观察他人的行为而改变自己的行为。
 
 对人建模的挑战
 
人们的偏好、行动能力不同,形成的社交网络、利他主义倾向以及分配给不同行动的认知资源(注意力)也有所不同。
 
对人建模的最后一个挑战来自人的主体性:我们有采取行动的能力,改变行为的能力以及学习的能力。也就是说,在某些情况下,人类可能是一种“习惯生物”:行动可能会超出我们的控制范围。 
 
如果人们应用多模型方法,犯错的可能性就会大大减少。
 
 损失厌恶和双曲贴现
 
1、损失厌恶:指面对收益时,人们表现为风险厌恶,面对损失时,人们却表现为风险偏好。
 
损失厌恶初看上去似乎并不是非理性的,但是它意味着对于一个相同的情景,在呈现为潜在损失与潜在收益时,人们会选择不同的行为。
 
2、双曲贴现:人们对近期的贴现更强。双曲贴现可以解释人们为什么会欠下巨额信用卡债务、吃不健康的食品、做出无保护措施的性行为,也可以解释许多人不能为退休进行储蓄的原因。
 
基于最优化的模型和基于规则的模型
 
1、基于最优化的模型是对偏好或收益的假设,它假设人们最大化的效用函数或收益函数。
 
2、基于规则的模型是对行为的假设,它假设特定的行为。例如,如果一个人的朋友一直可以获得更高回报的话,那么这个人会“复制”这位朋友的行为。
 
模型产生了什么样的结果
 
如果人们可以采取更好的行动,他们应该可以弄清楚,他们应该学习。
 
对于如何对人进行建模这个问题, 并不存在一个固定不变的最优答案。如何理性地制订规则及如何根据具体情况制订。我们需要的是在每种情况下尽可能做出最好的判断。考虑各种各样的不确定性,我们应该往构建更多模型的方向试错。
 
人是多样性的、易受社会影响的、容易出错的、有目的的、有适应能力且拥有主体性的。单一的人类行为模型一定会出错。我们的目标是构建许多模型,作为一个整体,它们大有裨益。
 
05 正态分布
 
 正态分布的形状是我们熟悉的钟形曲线形状。大多数物种的高度和重量都满足正态分布,它们围绕着均值对称分布,而且不会包含特别大或特别小的事件。
 
我们可以通过中心极限定理(Central Limit Theorem)来解释正态分布的普遍性。中心极限定理告诉我们,只要把随机变量加总或求其平均值,就可以期望获得正态分布。
 
并不是所有事件的规模(大小)都是正态分布的。地震、战争死亡人数和图书销量都呈长尾分布,这种分布主要由很小的事件组成,也包括极少数非常巨大的大型事件。
 
 正态分布的重要统计量
 
1、均值
 
分布为事件或价值分配概率。每日降雨量、考试分数或身高的分布为每一个可能的结果值分配一个概率。各种统计量将分布中包含的信息压缩为单个数值,例如均值,分布的平均值。
 
 2、方差
 
可以衡量一个分布的离散程度,也就是数据与均值之间距离的平方的平均值。
 
中心极限定理
 
只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分变差,那N≥20个随机变量的和就近似一个正态分布。
 
均值的标准差公式表明,大的总体的标准差要比小的总体的标准差低得多。由此可以推断,在小的群体中应该会观察到更多的好事和更多的坏事。
 
小结:
 
1、正态分布可以用均值和标准差来表示。中心极限定理说明,当我们将有限方差的独立随机变量相加或求平均值时,正态分布是如何产生的。
 
2、我们现在已经知道,小的群体更有可能呈现异常事件,如果缺乏对这类事件的洞察力,就会做出不正确的推断并采取不明智的行动。不要将自己的认知限制在小圈子里,要广泛与世界与人类历史融合。
 
3、并不是每个量都可以写成独立随机变量的总和或平均值,因此并非所有事件都满足正态分布。
 
06 幂律分布
 
 幂律分布就是通常所称的长尾分布或重尾分布。例如城市人口分布、物种灭绝、万维网上的链接数量以及企业规模等,所有这些分布都有很长的尾巴,视频下载量、书籍销量、学术论文引用数量、战争中的伤亡人数、洪水和地震的分布也是如此。
 
产生幂律分布要求非独立性,通常以正反馈的形式出现。图书销售、森林火灾的发生和城市人口都不同于光顾杂货店的次数,这些并不是独立的。当某个人买了一本《哈利·波特》后,其他人也可能跟着买;当一个城市的人口增加时,这个城市的基础设施会随之改善,工作机会也会随之增加,从而对其他人更具吸引力。
 
幂律分布的核心是事物之间的相关性而引发的反应。
 
 幂律分布的两个模型:
 
1、优先连接模型(preferential attachmentmodel)
 
假设实体以相对于其比例的速度增长。优先连接模型刻画了罗伯特·默顿所说的马太效应:更多导致更多。优先连接模型有助于解释为什么网络链接、城市规模、企业规模、图书销量和学术引用数量的分布都是幂律分布。
 
2、自组织临界模型(self- organized criticalitymodel)
 
通过在系统中建立相互依赖关系的过程产生幂律分布,直到系统达到临界状态为止。它能够解释交通拥堵、战争伤亡, 以及地震、火灾和雪崩的大小等。
 
幂律分布的结构
 
在幂律分布中,事件发生的概率与事件大小成反比。事件越大,发生的可能性越小。因此,在幂律分布中,小事件的数量要比大事件要多得多。
 
长尾分布的含义
 
长尾分布意味着少数几个大“赢家”(大崩溃、大地震、大火灾和严重的交通拥堵)和很多的“输家”。巨大的成功可能意味着正反馈,也许还有一点运气。
 
在长尾分布中,大事件发生的概率必须加以考虑。
 
如果每个子项目的成本都是相加的,那么这个项目的成本分布将是正态分布。然而各个子项目的成本是相互关联的,这种相互依赖性最终导致了一个大型且昂贵的事件。
 
机会的增加可以创造风险激励,这个逻辑可以应用到很多领域。风险资本家经常冒险,因为他们有机会进行多项投资。只要投中了一个独角兽(市值10亿美元以上的公司),不仅可以补偿多次失败的投资,还可以带来很大的利润。
 
有尝试的资本即风险承受力才更可能进行更多尝试。因此,尝试冒险是奢侈的。
 
 07 线性模型
 
 线性解释几乎总是谎言。教育对收入的影响、因锻炼而增加的期望寿命,以及收入对选民投票率的影响,都可以用线性模型来解释。
 
线性模型在线性模型中,自变量x的变化,会导致因变量y的线性变化, 用如下方程表示:y=mx+b 其中,m等于直线的斜率,b等于截距,即当自变量等于0时的因变量值。
 
线性回归可以告诉我们关于自变量系数的如下内容:
 
符号:自变量与因变量之间的正相关或负相关。
 
显著性(p值):系数上非零符号的概率。
 
大小:对自变量系数的最佳估计。
 
 相关关系vs. 因果关系
 
回归所揭示的是变量之间的相关关系,而不是因果关系。
 
如果先构建了某个模型,然后用回归检验模型的结果是否得到数据的支持,但那也不能证明因果关系。有一种方法远比回归方法好,这种方法就是“数据挖掘”(data mining)。但是,数据挖掘存在识别与其他因果变量相关的某个变量的风险。
 
某个大学的学术表现与参加马术队的学生人数存在显著相关。但是,马术队与学术水平之间可能并不存在直接的因果关系,但它们与平均家庭收入和学校资助水平相关。
 
数据挖掘还可能导致虚假的相关关系,即两个变量只是偶然相关。
 
  多元线性模型
 
大多数现象都有不止一个因果变量和相关变量。一个人的幸福可以归因于身体健康、婚姻美满、子女、宗教信仰和财富等。
 
但是必须记住,随着添加更多的变量,也就需要更多的数据,不然无法得到显著的系数。
 
实力-运气方程
 
成功=a×实力+(1-a)×运气。
 
其中,a位于区间[0,1]上,是技能的相对权重。
 
任何成功,都可以视为实力-运气的一个加权线性函数。
 
奖励实力,而不要为运气去买单。事实上,那些很成功的公司都不会为运气付出太多。
 
 多元线性回归
 
学生在数学考试中的成绩,是学生学习的小时数(HRS)、学生家庭社会经济状况(SES)和上“快班”课程的数量(AC)的函数。
 
数据表明,花时间学习和参加“快班”课程的学生成绩更好。但是,花时间学习和参加“快班”课程这两个因素也可能没有什么用,因为也许存在选择性偏差(selection bias),那些花更多时间学习、参加“快班”课程的学生,数学成绩可能本来就更好。
 
大系数与新现实
 
 “大系数至上”这个思路建立在“保守主义”的基础上,它会使我们将注意力集中到较小的改进上,而无法再关注全新的政策。
 
“大系数至上”的另一个问题是大系数的大小对应于给定现有数据的边际效应。当我们试图利用它时,大系数就会变小。
 
线性回归揭示了自变量与我们感兴趣的(因)变量之间的相关程度。如果这种相关是因果关系,那么具有大系数变量的变化就会产生很大的影响。基于大系数的政策在保证能够带来改进的同时, 排除了涉及更多根本性变化的新现实。
 
“大系数至上”思维方式的替代者是“新现实思维”。如果说,大系数思维可以拓宽道路、建造高利用率的车道以减少交通拥堵,那么新现实思维就相当于建造了铁路和公共汽车系统。
 
对青少年交通事故的回归也许会告诉我们,年龄的系数是最大的,这意味着提高驾驶年龄的政策也许能起到一定作用。还可以采取更多的政策,例如禁止夜间驾驶的宵禁、通过智能手机自动监控青少年驾驶员或限制青少年驾驶汽车的乘客数量等。这些新现实政策带来的效果可能比大系数带来的要好。
 
 线性模型只是一个开始,大多数有趣的现象都不是线性的。因此,回归模型通常会包括非线性项,例如年龄的平方、年龄的平方根,甚至包括年龄的对数。
 
 08 非线性模型
 
非线性函数可以向下或向上弯曲,可以形成S形,还可以扭结、跳跃和波动。
 
增长和正反馈产生凸性,收益递减和负反馈产生凹性。在绝大多数学科中,都包含了这两类模型。
 
关于生产的经济学模型假设交货期和库存成本会随着企业规模的增大而减少,从而使每单位产品的销售利润成了企业规模的一个凸函数, 这也就解释了为什么沃尔玛能够获得如此高的利润。
 
关于消费的经济学模型则假设效用(或价值)是凹的,也就是说,第5块比萨带给我们的享受比第1块比萨小。
 
1、凸函数
 
我们要讨论的第一个凸函数模型是指数增长模型(exponential growth model),它描述的是一个变量的数量(通常是指人口或资源) 与它的初始值、增长率和周期数之间的函数关系。
 
指数增长模型时间t的资源值Vt,其初始值为V0,且以速率R增长,可以写成如下方程:Vt=V0(1+R)t
 
为了得出清晰的推论,我们假设增长率固定不变。根据这个假设,可以利用指数增长方程推导出72法则(Rule of 72)。
 
如果一个变量在每个周期内以R(增长率小于15%)的百分比增长,那么: 翻倍所需的周期数约等于72/R
 
72法则量化了最高增长率的累积效应。2002年,美国的房价上涨了10%。这个增长率意味着每7年翻一番。如果这种趋势一直持续35年,那么美国的房价将会翻五番,即增长32倍。这也就是说,一栋在2002年价格为20万美元的房屋在2037年将上涨到640万美元。
 
2、凹函数
 
凹函数与凸函数相反。凹函数的斜率是递减的。具有正斜率的凹函数会呈现收益递减的特点:当我们拥有的东西越来越多的时候,每个额外东西所能带来的价值会越来越少。几乎所有商品的效用或价值都呈递减趋势。闲暇越多、金钱越多、冰激凌越多,甚至与爱人共度的时光越多,对我们的价值就越小。
 
当我们假设了凹性时,也就隐含地假设了对多样性和风险规避的偏好向。
 
经济增长模型
 
1、柯布-道格拉斯模型
 
经济学中使用最广泛的模型之一,它同时包括了两种性质。产出是劳动力和资本的凹函数,而且从规模上看是线性的。这个模型既可以应用于单个企业,也可以应用于行业或整个经济生产。
 
柯布-道格拉斯模型给定L个工人和K个单位资本,总产出如下所示: 产出=常数×LaK(1-a)其中a是介于0到1之间的实数,表示劳动力的相对重要性。
 
2、索洛*增长模型
 
长期均衡产出随劳动力数量的增加、技术的进步、储蓄率的提高而增加,同时随折旧率的上升而下降。创新增加的产出要比线性增长更快。
 
创新有两个效应:
 
1、创新直接增加产出。
 
2、创新间接导致更多的资本投资,从而导致产出再次增加。因此,创新是持续增长的关键。
 
需要注意的是,产出的这些增加不是瞬间发生的。当技术出现了一个突破时,技术参数的变化是相当缓慢的。直接效应的影响需要随着时间的推移显现。
 
国家缘何成功与失败
 
模型证明,资本积累可以实现快速增长,技术投资也可以。一个实物资本较少的落后国家,有可能通过新的资本投入进入技术前沿,从而实现难以置信的高速增长。
 
实现这些目标,需要一个强大但有限的中央政府来促进多元化。
 
这毕竟是一个非线性的世界
 
如果我们希望提高在复杂世界中推理、解释和行动的能力, 就需要更深入地研究非线性现象。
 
 

相关读后感推荐:

读书笔记 | 子非鱼,安《知鱼之乐》?

《玩出来的数学思维:数运算(5-6岁)》读书感想_《玩出来的数学思维:数运算(5-6岁)》读书感想500字-800字

《激励学生学习与思考的187个教学工具》读后感500字_《激励学生学习与思考的187个教学工具》读后感

《阳光姐姐科普小书房-万物运转的秘密》读后感_《阳光姐姐科普小书房-万物运转的秘密》读后感500字-800字

《欧欧猫和冲冲鼠玩数学-思念的手指头》读后感_《欧欧猫和冲冲鼠玩数学-思念的手指头》读后感500字-800字

【读书心得】生命中所有的灿烂,终将用寂寞来偿还

杨绛:钱钟书是怎样做读书笔记的

《可口可乐鼠》读后感_《可口可乐鼠》读后感500字-800字

《小扣的特别假期》读后感500字_《小扣的特别假期》读后感