上期的标题是“统计人都是攻城狮”,强调了统计工作的设计部分,即统计人必须推导各种统计指标,设计数据收集和分析体系,为完成这些工作,还要建立稳定可靠的工作流程和统计组织。所有这些数据、公式、流程和组织机构原来并不存在,它们都是人类设计和实践的成果,是人类社会的产物。真正的挑战是,这些人工设计之物会嵌入到社会和组织机构之中,自然会跟所处的外部环境发生持续而复杂的相互作用。理解和适应这种互动是非常困难的。回到统计。统计数字和指标会影响和塑造人类社会,这已经是常识,不过很多人尽管坚信数字的魔力,但是却会同时低估数字的塑造力量。统计数字的影响力能够达到什么程度?举两个例子吧。一个有益的例子是“四万万同胞”,这个数字本身的准确性难以考证,但它在国难当头的时候,对于凝聚民心,唤醒现代中国的国家和民族意识起到了难以替代的作用。一个好坏参半的例子是GDP。自从有了国民核算以后,如何理解和使用GDP就成为一个令人困扰的问题,学界和公众都持有很多批评意见,有些地方甚至出现过“数字出官,官出数字”的恶性循环现象。这句绕口令一般的说法提醒我们,统计和社会之间的互动关系并不简单,而这种关系在一定程度上可以被人善用,也可能被人误用和滥用。要理解这种关系,就必须走出统计的世界,将统计活动嵌入更加广阔的社会之中。往大了说,这要求我们具备“社会学的想象力”。本文将使用西蒙(司马贺)的“社会设计”框架来描述统计工作和人类社会之间的复杂关系,希望能够为改进统计设计工作提供有益的参考。我们还可以进一步思考,这些通用的原则和经验,在大数据和人工智能时代是否还能对我们有所启发?
西蒙论社会设计
社会设计是西蒙《人工科学》一书第六章的主题,其研究对象是“在社会规模上设计人工物”。所谓在社会规模上是指影响范围涉及整个国家,比如国民核算体系、社会保障制度、欧洲的马歇尔计划等等。西蒙认为,这些体系的设计和运行具备独有的特征和复杂性,需要处理五个议题:第一,通过组织来实现的问题表示;第二,应付数据不足的方法;第三,理解客户对计划的影响方式;第四,计划者的时间与注意力的限制;第五,社会计划目标的模糊性与目标的冲突。这五个议题中,比较容易理解的是第二、三、四个,相信读者都能够从自己身边的例子中找到例证。最难理解的是第一个议题,暗藏玄机的则是第五个议题,因此我们将对议题一做重点解释,议题五次之,其余的只会做简略的举例说明。第一个议题的难点是“问题表示“这个概念。其大意是将问题表达成什么样的基本结构。举个解应用题的例子。小学生看见行程问题,就会用逻辑推理和学过的套路公式,大学生看见行程问题,则会想起设未知数解方程,未知数多了,就建立方程组。这是两种完全不同的问题表示方式,自然会导出不同的解答过程。这个问题和统计有关吗?大有干系。问题表示的概念迫使我们重新思考两个基本问题,或者说统计方法的顶层设计问题。我们要重新定位两个关系,其一是统计学科与数学的关系,其二是国民核算和宏观经济学的关系。教科书上的标准答案是,统计是数学的应用,国民核算是宏观经济学的应用,但这是真的吗?我们很难无法给出简单的解答,将会在第二部分做更多解释,这里只提醒一点:统计工作固然离不开理论的指导,但是如果做统计就想起数学公式,搞国民核算就想起宏观经济学来,肯定是行不通的。回到社会设计上来。西蒙社会设计论的重点是,要完成社会规模的项目,需要将问题表示为特定的组织结构。如果没有稳定可靠的组织机构,就无法完成预定任务;反过来说,组织机构一旦形成,就拥有了自己的运作逻辑和反作用,调整起来会非常困难,因此组织机构的设计要非常慎重。不过选择困难症患者有福了,因为社会规模上的组织设计留给设计者的选项其实非常有限。以我国政府统计的组织机构为例。统计体系(或者说广义的信息管理体系)的设计目标都是获得及时、有效的相关信息。在计划经济时代,解决这个问题的组织表示就是按管理层级逐级落实的统计报表制度,同时设立一系列的专职统计岗位。大家不妨思考一下,在1950年代的社会环境和技术条件下,国家统计制度有没有可能形成别的组织形式?那么,在21世纪的计算机、网络和大数据时代里,西蒙在1970年代的观点还有意义吗?西蒙在论证社会设计的时候,指出美国企业1960年代的信息管理系统在设计思想上犯了一个基本错误:过分强调数据的稀缺性,忘记了管理者的注意力才是真正的稀缺资源。在几十年后的大数据和搜索引擎时代,我们知道这是很简单的现实,争夺的焦点是注意力。同样地,统计部门也需要为节省管理者和用户的注意力付出更多努力,也就是说,要提供更多更深入的分析而不是局限于数据的堆积。
国民核算的问题表示与组织假设
下面我们讨论西蒙的组织表示概念和政府统计以及社会经济统计的关联。我们要处理两个基本问题。第一个问题是统计组织采用的组织形式。相关答案比较简单,政府统计工作必须依托现代民族国家的行政管理机构,自然会采用层级结构,数据的收集和整理也就采用了层层汇总的方式。从历史发展进程来看,政府统计活动是现代民族国家的典型特征之一,两者的发展期都集中在19世纪下半叶,这并非偶然。在19世纪的重要统计学家中,颇有几位行政管理方面的高手,比利时的凯特勒和普鲁士的统计局长恩格尔都有很强的领导力和执行力。实际上,现代的国民核算体系和20世纪的两次世界大战有着深刻的联系,它萌芽于一次大战的大国,形成于二次大战的英国和美国,又随着1950年代之后的联合国和民族国家独立浪潮推广到全球。因此,国民核算的组织不可避免地包含着浓厚的军事特征。统计设计中的实际问题是确定组织层级的数量,层级结构有两个极端,一个是高耸入云的金字塔,另一个是类似互联网的扁平化。手工时代的信息收集和处理方式决定了要依赖层层汇总而不是更加扁平化的结构。描述整个国家的数据当然是由个别数据汇总而来,但是如果计算机软硬件和网络基础足够好的话,就能够减少汇总的层级,甚至实现基层单位直接提交报表。因此从跨越一两代人的长时段来看,对政府统计部门的组织假设与实际结构也需要做合理的调整。组织表示的第二个问题是数学模型对民族国家和全球经济活动的组织假设。这种假设构成了国民统计和大量政府统计活动的前提,如果全球经济活动形式发生了重大转型,请问国民核算体系和海关统计数字该如何解读?这个不是理论设想而是现实。传统的宏观经济学对全球经济活动的基本假设是:独立的民族国家之间交换完整的制成品,无论农产品还是工业制品,都是在这个国家的边界之内完成的。它还有一个隐含假设,这些国家之间是在进行公平合理的交易。对服务项目的假设大致与此相同。从大约1960年代后期开始,全球价值链的规模越来越大,让民族国家边界这个组织假设变得过时了。有两个基础设施发挥了驱动作用:1960年代的集装箱和计算机,集装箱大大降低了国际运输成本,计算机软硬件的发展则降低了信息的收集和处理成本,从而让全球范围内的生产计划和协调获得了信息支持。西蒙还有一个金句“无数字的表示”,原文是:真正重要的东西不是数字,而是允许进行功能分析(就算是定性的分析)的表示结构。
社会设计的另外三个议题
西蒙社会设计论的中间三个议题是:应付数据不足、理解客户对计划的影响方式、计划者的时间与注意力的限制。参加过统计项目的人大概都处理过这三个议题,有些人久病成良医,还成了解决某些问题的能手。应付数据不足的方法很多,源自统计思维的方法是抽样调查和蒙特卡洛方法。这两种方法现在已经得到根据使用,我们要记住的是,抽样调查方法是在19世纪提出的,到1935年之后才在社会经济调查中站住脚跟。由于在现实生活中永远会缺乏数据,所以还有许多克服数据不足的奇思妙想,这里仅仅举一个例子。在1940年前后进行民国的人口普查,当时许多地区已经被日军侵占,很多人,想到了一个合理的替代指标,食盐消费量。西蒙所谓的“客户”是广义的,他指出:将客户与整个社会认作一体将能消除一切模糊性……(但是)社会作为客户并不比病人听话。后面这句算是西蒙的金句了,做社会经济统计的时候,应当牢记,我们面对的社会是一个有博弈能力的客户,西蒙的话是:社会计划过程的表现与此类似,它将社会计划过程看作计划者和他们试图影响其行为的人们之间的博弈。这是我们熟悉的“上有政策,下有对策”了。原则上的解决方案也是有的,西蒙说:我们需要扩大社会计划手段的范围,以将这些效应作为正常情形包括进来。至于人类理性能力是有限的,这是老生常谈了。从17世纪以来,人类就开始幻想或者相信可以找到一些简洁有力的公式,从而解释过去,预测未来。中国古人的愿望是前知五百年,后知五百年。不过来到大数据时代,我们已经有了更实用的方法,是让人脑和电脑建立分工合作关系。数据驱动下的数学建模思路是,尽量细致地模拟整个流程的运作过程,比较成功的案例已经有了,比如工业界的数字孪生体,未来学家们预言过的镜像世界,所依赖的都不是高度抽象的理论,而是更加混乱、复杂和接近真实世界的计算机模型。人-机合作改变的不仅仅是实用的建模,还改造了最高深的数学工作,从1970年代以来,有些著名的数学定理就是通过人-机合作方式完成证明的。有兴趣的读者可以参考法国数学家吉尔·多维克的《计算进化史》一书,这是一本小册子,告诉我们在纯粹数学中,计算和证明推导的差别也消失了一部分。至于经济学领域,已经越来越依赖实证和计算而不是貌似高深的数学公式了。不过,放弃理论的安全感和稳定感,对所有人都是一种挑战。
结语:变与不变
经济社会统计中从来没有纯粹的数据,所有的数字都带着丰富的意义和假设前提,同时又被众多用户赋予各种解读。经过长期使用的概念和指标,成成相因,会积累很多种意义,多到让后来的人感到迷惑不解。更糟糕的是,许多重要指标的名称一直没有变化,它的定义和计算过程却发生了很多变化,想通过观察长期数据变动趋势的人难免迷失其中。比如GDP、失业率(派生出很多定义)、通货膨胀率(同样派生出很多定义)等等。有些时候,我们会寻找比较稳定和可比的指标,比如人口、用电量等等物理意义下的物量指标,计量生活质量的是热量、营养素和流明数等等。当然,这只能解决局部问题。如何理解和把握变动?西蒙社会设计的第五个要点可以为我们提供一点帮助,他有一个出人意料的重点:没有最终目标的设计。大型的人工之物都是演化而成的,最初的设计一定会慢慢“走样”。西蒙讨论过“进步”概念,认为这个概念难以量化。而进步概念是一个具体例子,它属于“无固定目标的社会计划”。因此设计者需要的是动态能力而不是缺乏演化能力的僵化结构,这是对设计者的终极挑战,如西蒙所说:我们的行动的真实结果,是为行动的下一接续阶段建立初始条件。我们所称为“最终”目标的东西,事实上是我们将留给后继者选择初始条件的标准。也就是说,设计者要尽可能为后续工作留足余地,而数据驱动方法能够帮助我们部分地克服理论化的僵化,保留整个模型的弹性和适应能力。
《社会设计概念对统计工作的启示》来源:《中国统计》,作者:黄向阳