・理论前沿・ 大数据时代及其影响 李德伟 摘要:大数据的主要特点是与其所反映的事物的同构关系,大数据揭示了理性的局限,解 释了人类认识的悖论原因。大数据对人类社会历史发展带来了重大冲击,同时深刻影响了人类 认识和决策思维模式。 关键词:信息化大数据思维模式 作者简介:李德伟,全国政协中国经济理事会理事、中国大数据和智慧城市研究院院长。 近年来,信息化的步伐急剧推动着海量数据,形成了波澜壮阔的大数据浪潮,以排 山倒海之势,席卷人类社会各个领域,一场影响深远的信息化革命已经到来,大数据的 性质、特点和规律引起了人们的广泛注意。 一、大数据及其特点 众所周知,人类社会的一切活动都是通过以信息为媒介进行的,从古至今,谁掌握 了信息和信息传播工具,谁就掌握了社会的支配权和话语权。中华民族源于两河流域, 全球化2014年第9期 多民族团结共进,不断成长壮大,创造了灿烂辉煌的华夏文明,究其源头,就是从仓 颉造字、伏羲演八卦开始的;秦始皇统一中国, “书同文、车同轨”,为我们统一的中华 民族奠定了和谐发展的信息化基础。可以说,在广义上,信息技术的进步就是人类进步 的标志。 (一)大数据改写了历史 当我们从现代的高度回顾人类全部历史,可以简单地说:人类的进步归根到底是一 部认识和实践的历史,就是认识世界、改造世界的历史。科学技术是第一生产力,因此, 认识世界、改造世界的进步,最为重要的就是科学技术的进步,特别是信息技术的进步。 人类历史上经历过三次信息革命。 语言的创造,是人类第一次伟大的创造。语言的诞生表明人类有什么想法要表达, 而这就是认识世界与改造世界的需要。思维的产生是应运而生的,将事物信息抽象表达、 传递、存储于其他载体是人的特殊本领,口头语言是即时的信息传递和表达。据此,人 能认识世界,能够建立相互关系,协同行动。与此相应,口头语言的限制和缺点是无法 突破个体的时空。 文字创造,是第二个伟大的创造,文字使人们能够远距离和世代相袭地传递信息和 思想,这导致了人类联合活动的扩大、延续。然而,文字包括相应的技术的创新,造纸 与印刷,一方面提供了不受区域、时代限制的全国和全球范围的信息表达、传递、存 储和加工创新的工具;另一方面与现代社会的需要相比,它还是没有摆脱一个缺点,即 虽然空间上进步了,但还是需要太长时间,而对现代化而言,一万年太久,我们要只争 朝夕。 因此,人类又发明了电信通讯,实现了即时的、远距离的通讯。电报、广播、电视 的创造相继发明,大大加速了人类社会发展的进程。但是,从当代信息社会来看,这仅 仅是信息化的准备阶段。 电子计算机与互联网的创造是一次最伟大的、空前的创新大综合。它的特点是:将 所有信息全部归结为数字形式。这是有史以来最伟大的信息革命。当今的网络环境、存 储以及搜索架构越来越快地发展,更进一步地催促、适应和引导这种新的变化。大数据 时代的到来,就是对这一发展的总结。 在大数据时代,信息的搜集、检索、加工处理和发掘、创新,已经形成产业,成为 涉及国家生存、发展和安全的基础设施和基础产业。从硬件看,宽带和互联网是现代化 社会的神经系统,而信息、海量数据,即大数据系统则是直接引导社会运行的认知源泉。 这是人类之所以为人类,并确立其在宇宙中的位置的知识产权。如果从工作方式看,信 ・072・ 息搜索是信息化的基础,信息检索、处理则是对信息的提炼、加工和利用,其效率和质 量更是直接关系到社会的生存、发展,关系到经济建设、和谐社会,关系到现代化和国 家安全。总之,一个国家的经济、政治、文化等一切社会活动都离不开宽带、互联网和 大数据,离不开大数据搜索、加工处理和创新。 (二)大数据的特点 对大数据的研究刚刚开始,关于其本质和特点有不同的看法。人们通常说, “大数 据”的特点是“大量化(Volume)、多样化(Variety)、快速化(Velociy)”,也就是 t“3V"。但是,我认为这既流于表面,也不全面。 大数据的特点是:海量(Volme)、多样(Varuiety)、即时(Immediate)、流动 (Flow)、同构(Isomorphic)。海量,指大数据的巨大数量,几乎接近全面。多样,则 是说大数据反映了事物的多样化属性。即时,指大数据与事物运动的同步性,即时使人 类在同一个瞬间,或者说同时地从多方面把握事物,这才能避免片面性,比人们说的 陕速”更准确。流动,是指大数据的连续性,只有连续的大数据才有意义。同构,是指 数据流与其反映的事物及其运动,既是连续的,又是离散的,是分层次一一对应的、同 步的、动态的;因此,是同构的。这就是“大数据”的显著特征。 二、大数据对人类历史发展的推动 (一)大数据的时代意义 当今世界,人们经常为各种涉及生活和工作的复杂问题烦躁不安或困惑不解:希腊 到底要不要退出欧元区?欧共体是否会分裂?美国对伊朗开战,结果将会怎样?朝核问 题局势是否将失控?冷战后的军备竞赛是否触发第三次世界大战?人类是否会因此毁灭? 中国外储近4万亿美元,大部分为美国国债,是否保证安全?如果中国抛了美元后果怎样? 钓鱼岛问题将引起什么后果?中国因钓鱼岛事件抵制日货结果如何?等等,诸如此类。 过去,我们处理这一类问题,常常感到资料太少,研究速度太慢,而现在“大数 据”反映了当今信息技术飞速发展,反映各种事物的数据越来越多。大部分数据都是在 自然环境下产生的,比如说网络言论、图片和视频等不受控制的东西,以及来自于传感 器的数据等。现在随着社交网络、电子商务、网络教育、虚拟社区的逐渐成熟,移动带 宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络, 由此产生的数据将比历史上的任何时期都要多,速度更是快得不可思议。海量数据一直 都在以每年50%的速度增长,每两年就增长一倍。数据不仅仅正在变得更加可用,同时也 正在变得更加容易被计算机所理解。这种趋势为理解这个世界和作出决策开启了一扇大 全球化2014年第9期 门。正因为如此,“大数据"正在对人类社会每个领域造成越来越不可抗拒的影响。 毫无疑议,在当今信息社会,信息产业已经成为涉及国家生存、发展和安全的基础 设施,一个国家的经济、政治、文化等一切社会活动都离不开宽带、互联网和大数据, 离不开数据搜索与加工处理。在政治、经济及其他领域中,决策行为将日益基于数据和 分析而作出,而并非基于经验和直觉;大数据带来的影响将数学与政治科学联系起来, 决策正日益变得数据密集化。这是一种革命,是一场改变我们的思维决策方式和发展方 式的新的科学技术和工业革命,是一场将影响世界和人类文明发展的革命。 (二)大数据的冲击力 与以往科技革命和社会革命相比,大数据的冲击力有三方面。 一是以无限突破有限。传统经济社会发展方式是有限的,因为物资资产是有限的, 是会枯竭的。煤仅供开采160年,石油仅供开采40年。但是,大数据的增长却是源源不 断的、递增的、无限的。 二是以效益递增突破效益递减。传统社会发展方式是高成本、低效益的,效益递减 的。但是大数据时代的发展方式却是低成本、高效率、快速度的、效益递增的。从宽带、 互联网、云计算、物联网,我们经历了魔幻似的发展,经济和社会效益都是递增的。信 息时代的经济增长,据OECD计算,2008年25%的GDP增长和40%的劳动生产率提高归 功于信息产业发展。数据增长:每秒E.mail 290万;每天谷歌储量额数据24PB。过去三 年数据量比以往4万年还多。2006年全球数字信息量16.1万PB,当年信息量为历史上 图书信息总量的3000倍;2010年全球数据量已达1.2ZB,年增长50%;2012年10分钟的 信息总量1.8ZB。 三是团结和谐共赢发展突破了对立的矛盾的发展。传统的发展是零和博弈式的、马 太效应的。你有我就没有,你多我就少,因此,导致人们互相争吵;大数据时代的发展 却是和谐的、合作共赢的,因为数据资产可以复制、递增、共享,关键在于发展科教事 业,提高人们素质。 经济发展史证明,一个大国的崛起,往往与当时的新兴产业崛起紧密相连,英国依 靠纺织业发展,日本依靠电子产业发展就是实例。中国改革开放适逢信息产业兴起,而 信息产业天然适合中国的发展需要。其原因在于:一是市场需求大,信息量随人口数量 增长呈几何级数增长,中国是世界最大的信息产业市场;二是信息化系统实际上是一个 社会运转的神经系统,能极大提高经济效益、执政效能和现代化水平的基础设施,特别 适合中国赶超型、节约型、可持续的、和平发展的新型工业化和社会主义市场经济建设; 特别是信息技术已经出现智能化趋势,是即将到来的机器人时代的基础技术,对我们未 来的重要意义是显而易见的。 三、大数据改变思维与决策模式 “大数据浪潮"已经引发了思维模式和发展模式的改变,人类的知识结构和内容将受 到巨大冲击。在此,仅从其数理哲学基础进行一些基础性的认识。 (一)同构关系——大数据的数理哲学基础 人们通常注意到大量结构化和非结构化数据,其表面特点是“3V”,即数据体量巨 大、类型繁多、处理速度快。然而,这些仅仅是表层的特点,深入实质看,数据体现的 本质的特点是对象的数和结构(笛卡尔已经通过解析几何将数与形统一起来)关系。事 物之间的这种同构关系,通过人的感觉映像载体,表现出对象世界的规律和属性。不管 对象与感觉映像之间是否有具体形象的一致性,关键在于对象的结构数据与人的感觉映 像的结构数据是一致的,而这一点将引起思维模式的重大变革。 大数据的出现促使我们认识到,人类的认识和实践,就是一部数据搜索、处理、挖 掘和创新的历史。过去,人们认为人类与动物区别于劳动。但大量事实证明,动物也有 作用于物质世界的类似于劳动的活动,只有人类才可以认识到事物的数与结构关系,并 能够定量地、合目的地作用于对象,这就是智力的本质特征,也是人类区别于动物世界 的标志。 人类初期,占b吉凶、预测未来是人类与生相伴的活动,而实现的途径就离不开数 据。易经、八卦这一类占b吉凶的工具,就是一种透露世界万事万物运行盛衰信息的载 体,它本身既存在于现实中,也必然与世界其他所有事物遵循同一时空关系,与世界事 物变化具有同构关系。例如,相互依存、物极必反、量变质变、过犹不及等等规律。 宇宙的结构是分层次的,认识也必须遵循宇宙层次的结构。有限与无限,是构成宇 宙的最基本的两个不同层次,两个层次的结构和规律具有质的区别。有限序列事物和现 象是遵循因果关系的、有产生也有消亡的、不断相互转换的、可以认识和证实的。无限 层次是永恒运动、不可穷尽或绝对认识的。 以有限的认识范畴规范无限的对象运动序列,必将陷入认识的自相矛盾和悖论。而 这种悖论既不能肯定一个命题,也不能否定一个命题。这种状况说明人类认识和理性是 有局限的。 大数据方法揭示了上述秘密:因果关系是常规性的,终极的关系应从事物之间的相 关性、同构性中寻找。数据反映的是具有同构关系的两个序列的关系信息,一个对象的 运动轨迹通过另一个序列的载体编码来表达。认识主体获得的不是对象本身的绝对映像, 全球化2014年第9期 而是离开了对象,从对象无限层次中抽象出来的、关于对象某一层次结构的数据;如果 主体能够通过自己的作用,在对象运动中重复这一层次结构(其动态表现就是这一层次 的运动),那么就证实了主体关于对象这一层次结构的认识是绝对的真理。 从这一角度看,同构关系是宇宙结构最底层的终极的关系,它也是大数据的数理哲 学基础。据此总揽全部人类认识史,可以发现,对数据的认识史就是人类的认识、实践 发展史。 (二)同构关系解决了物质与精神的一致性问题 人类关于世界起源争论了几千年。唯物主义认为世界本源是物质,例如原子、基本 粒子、夸克。唯心主义认为世界本源是精神,如贝克莱的主观感觉、黑格尔的“绝对 精神”。 如果忽略本源问题的争论,得出的是物心二元论,从亚里士多德的形式因和质料因, 到斯宾诺莎的物心并行二元论。① 然而,不论哪一派哲学思想都没有解决下述问题。从纵的方面看,物质序列和精神 序列都遵循因果关系,但是沿着因果关系却趋于无限。因此,人类的认识遇到无法解决 的悖论:一是就并列的横向关系,精神无法突破自身的限制,达不到物质,无法证明自 己的认识真伪。二是从纵的方面看,因果关系的推演或回到起点,成为一个自我论证的 闭环,或将趋于无限(既无起点也无终点的螺旋形环),无法开始和结束思考。 上述问题产生于这样一个事实:物质与精神本来是统一宇宙中的一元性序列事物现 象,当精神假定自己独立出来,想要探清自己与非精神的对象世界的关系的时候,他是 给自己制造了一个本来不存在的问题,因此必然陷入作茧自缚的悖论。这种关系就像只 有一个单面的莫比乌斯环(一张长方形纸条,扭转半圈后两段沾上,就成为莫比乌斯环), 当莫比乌斯环反转半圈,它就成为永不重合、互相不可达到正反两面的纸环。 从上述序列中任一点开始,无论向前向后,对因果关系的最终追究只可能推到相互 关系,而这就是大数据分析的实质:从假定性的起点开始,是物质还是精神是个假定, 其证明是无穷过程。可以证实的只是一系列物质与精神二元结构的同构关系,更准确地 说,就是相互关系的数或结构,或现在说的数据关系。 这种关系,通过电子计算机与互联网的创造将所有信息全部归结为数据表达形式: 统一的数字形式,0和1,只要有了0和1,加上逻辑和层次关系,就可以构成全部世界。 大数据技术就是这样按照同构关系来制作思想模型,这就是由O和1组成的,分层 次递进的模型。认识可以从任意选择的点(层次)开始,无论向上或向下递进,它必须 ①罗素:《西方哲学史》,北京出版社2007年。 ・076・ 将立足的层次浓缩成为一个起点(已认识的定律和定理,暂时没有认识的假定或显而易 见、不证自明的公理),这样的认识模型是认识无限递增的大数据的唯一可行性的仿真智 能模型。而现代科学研究已经证明,宇宙结构法则类似人脑和互联网。 因此,物质与精神本来就没有隔阂,超越物质与精神的隔阂,获取对象序列的数据 和信息是可靠的:如果我用我的思想序列结构和运动,指挥物质序列结构和运动,达到 预期的目的,这就说明我正确地认识了物质序列的结构和运动。 (三)理性的局限:大数据分析的可行性与可靠性、绝对性与相对性问题 依据对象之间数据关系来认识世界,这一方法可靠吗?以往人类在对自己的认识能 力的反思中,已经多次提出疑义。人类每一次宣告自己是绝对真理的全称判断,如“所 有的天鹅都是白的”,总是被一个小小“黑天鹅"单个事件推翻。波普尔的证伪主义对知 识可靠性问题从整体上给出了否定的解答, “理论不能证实,只能证伪”,①科学理论是 全称命题,不能通过有限的、个别的经验事实而被证实,但个别的经验事实却能证伪普 遍命题。 哥德尔不完备性定理进一步从层次上说明了知识的可靠性和可行性的区别。哥德尔 第一条定理指出,若形式系统是相容的,则此系统必定是不完备的。也就是说在系统中 存在这样的命题,既不能用系统中的公理和推理规则加以证明,也不能用系统中的公理 和推理规则加以否证,即成为不可判定的命题。哥德尔第二条定理说,上述形式系统的 相容性就是不可判定的。或者说任何相容性的形式系统不能用于证明它本身的相容性。② 从哥德尔定理可以推出,认识主体对世界事物的认识是分层次的,人类对每一有限 层次的认识既是可行的也是可靠的,但是将一个层次的认识超出该层次范围以外运用, 就陷入自相矛盾或悖论。认识主体在现实可行的每一个认识阶段,可以到达对认识对象 的一个有限层次的完全的可靠性的真理性认识。这不再是通常人们说的“相对真理”,就 这一层次而言,它是绝对真理。 人类在有限的时空中活动,其认识也只能从日常的有限的时空关系开始,因果关系 是有限时空中的朴素的观念。试图将有限时空的因果关系推向无限时空关系中的宇宙, 无论探索原因的原因,还是追寻结果的结果,都是无限系列,最后达到的或是不可思议 的悖论,或是不证自明和同义反复的公理。唯一可行和可靠的终极结果只有相互关 系——数据联系。 大数据技术使人类突破了上述的理性局限,关于数与结构的知识是一种连续不断的 ①波普尔:《科学发现的逻辑》,科学出版社,1986年。 ②王浩(美):《逻辑之旅:从哥德尔到哲学》,浙江大学出版社,2009年。 全珠'112,2014年第9期 论证和数据流,这种知识既是可数的、运动的、 无限推进的,但也是可以证明的。其理 论根据是:大数据的即时的、流处理与对象的、 已被抽象的、层次的动态结构是同构的, 可以被完全认识和证明的。 人类发现理性的局限最早体现于古希腊的“芝诺悖论”:阿喀琉斯追不上乌龟。阿喀 琉斯要用有限的时间,无数次地到达某个起始点。从理性上看是不可能的,但在现实中 却可能。 设阿喀琉斯追乌龟的空间距离是d,阿喀琉斯与乌龟的速度分别为V 、V。。 [==二二二 无穷级数的求和d V. 从数学上看,这是无穷级数的求和。 J V2 d+d( ) ( ) +…… ( ) +……= V1 1,1 Yl 一 V1一V2 [卜( )n]: 1,1 1)1-V2 中d是初始距离,1, 、v 分别是阿喀琉斯与乌龟的速 秘密在于:无限是对于无长度、面积和体积的点而言,对于有限的距离和速度而言, 却是可比的。芝诺的同类悖论,都涉及到无限与有限的问题,而无限与有限二者不是处 于同一个可比较层次的同构关系。无穷级数的求和之所以有解,在于同样包含着无穷点 的v 、1, 相互之间处于可比的距离和速度的同构关系上。在可比的有限的同构关系中,无 穷序列关系相互抵消了。一对有限距离(虽然其中有无限的 ,当然可以在有限的时间 内进行比较。 关于对象的不可知、不可证实的结论来源于认识主体对对像层次结构关系的混淆, 例如,将已经证实的关于对象某一层次的知识,与尚未认识和证实的无穷推进的层次的 数与结构关系相比,只可能得出不可知论或自相矛盾的悖论。 综上所述,知识必须重新定义。关于无限推进的全部知识的确定性可视为对人类理 性的信仰。至于每一阶段或层次的认识的立足点、起点,只是未证的假定,或是不证自 明的、具有信仰意义的公理。 公理和信仰的科学依据是基于归纳法意义上的概率向必然性1的无限的趋近。而这 种无限推进的动态证明序列与对象发展的同样无限推进的动态序列,在数学中是可计算的。 (四)大数据通过同构认识世界 人类的生存、发展方式可以归结为:获取信息、处理信息,而这就是智力。智力的 进步,归功结底就是信息技术的进步。 电子计算机与互联网的创造,是一次伟大的、空前的大综合,其特点是:所有信息 ・078・ 全部归结为数据表达形式——数字形式,只要有了0和1,加上逻辑关系,就可以构成全 部世界。而世界本来就是这样构成的,已经出现的读脑机、脑电波指挥的电脑、智能机 器人和人脑插入的芯片等等,说明大脑的认知方式与世界事物同构。当然,信息在传输 过程中有损耗。这是热力学第二定律“熵增加”原理的制约:在孤立系统(与外界无物 质与能量交换的系统)中发生的任何不可逆过程,都导致熵增加,系统的熵只有在可逆 过程中才是不变的。对信息论来说,就是信息传递中总会有损耗,总有噪音。 尽管如此,编码技术的改进使秩序增加、噪音减少,大数据提供了一种现实的可能。 从人脑模型看,神经元与神经元之间的机能接点称为突触(synapse),思维中信息的传 递和存储通过神经突触之间的联系,这与电脑中的数字信息是同构的。大脑认识具有客 观性,也无法摆脱主观性、相对性。但是,个体思维通过多元的感官互相证明,减少了 错误,而个人又通过与团体思维(人类的认识,最高是人类整体的认识),尽可能地减 少谬误,到达更高的、更接近真理的层次。 由于个体、团体的信息交流受到地域和时间的限制,知识总是片面的、不连贯的。 但是,大数据借“云计算”达到一个新的质变阶段。首先,由于即时的、流处理的大数 据与现实世界对象的流动具有同构关系,人类在大数据“云计算”即时的流处理中通过 反复的对比、反馈,通过个人与人类,实现人与自然界两个系列的一致性。尽管在数据 传递过程中会产生随机误差与信道中的噪声,但是同构关系却是可以获取的,即使对象 世界的本体永远是自在的、不可穷尽的。 (五)大数据分析的社会意义 1.大数据带来的发展模式革命——摩尔定律 知识是不断递增的。摩尔定律揭示了大数据增长的速度。这是一场改变我们的思 维、决策方式和发展方式的新的科技革命和产业革命,是一场影响世界和人类文明发展的 革命。 与以往科技革命和产业革命相比,大数据的冲击力有如下几点:一是以无限增长突 破有限增长;二是以效益递增突破效益递减;三是和谐共赢发展突破了对立的矛盾的发 展;四是知识发展将竞争性和垄断性推向极点,知识产权法律应当修改。认识或获取知 识的起点是公平的,但结果却由于种种先天的和后天的因素,成为寡头垄断。从事基础 性研究、做出划时代创新的冯・诺依曼和图灵并没有获取应有的报酬,而应用计算机的微 软、谷歌却获得垄断性暴富,证明现行的知识产权法律原则已经不再适应现代社会发展, 人类应当发明更适合的法律,对科技发明带来的财富进行合理的分配。 2.大数据促进解决信息不对称问题,成为实现民主的途径 全球化2014年第9期 在古代社会,人格不平等,皇帝是天子和真龙,百姓和庶民是低劣的贱民、草民、 平民。资本主义革命以后,人生而平等,是人格平等,但是信息不平等还是存在。信息 不对称问题导致实际上的不民主,如关于选举对象的信息不对称导致选错人。 人类利益分裂为个人利益、团体利益、国家利益与人类利益,无非是区域的分割导 致信息的隔阂和不对称问题。如果信息公开并自由流动、交流,可以消除差异和隔阂, 达到统一和一致性。人类进步历程就是信息公开、流动和平等的过程,全球化意味着信 息流动自由化。 四、关于维克多等人《大数据时代》①的三个偏见 由于大数据技术发展迅速,且立即深入实践,一些通俗读物囫囵吞枣的浅知误见也 随之流传,如当前国内十分流行的将维克多等人《大数据时代》(以下简称“时代”) 中提出的三个主要观点错误地理解大数据,不仅没有揭示大数据时代的真正本质,而且 将产生严重误导。 (一)“不是因果关系。而是相互关系”?——一种陈1日过时的偏见 18世纪,英国怀疑论者休谟早就指出, “不但我们的理性不能帮助我们发现原因和 结果的最终联系,而且经验给我们指出它们的恒常结合以后,我们也不能凭自己的理性 使自己相信,我们为什么把那种经验扩大到我们所曾观察过那些特殊事物以外”。②在休 谟看来,“因果关系”不是自然的本质,而是因为我们所养成的心理习惯和人性所造成 的。他认为,大多数人都相信只要一件事物伴随着另一件事物而来,两件事物之间就必 然存在着一种关联,使得后者伴随前者出现。 恩格斯从辩证唯物主义立场对此给与了批判性的扬弃,他指出,“原因和结果这两 个观念,只有在应用于个别场合时才有其本来的意义,……"“要认识世界上一切过程的 ‘自己运动’、自生的发展和蓬勃的生活,就要把这些过程当做对立面的统一来认识”。③ 《时代》一书将休谟这一早已提出几个世纪的陈旧观点,作为大数据时代的新概念, 不仅陈旧,而且错误。因为简单地说,大数据时代“不是因果关系,而是相互关系" 说明作者不了解因果关系本身也是一种相互关系,即原因与结果前后相继的相互关系, 因此将因果关系归结为相互关系并不比因果关系本身更有内涵,实际上这甚至是一种同 ①维克托・迈尔一舍恩伯格(Viktor Mayer—Schönberger)[ ̄】著:《大数据时代》,浙江人民 出版社,2012年12月。 ②休谟:《人性论》,商务印书馆,1980年; 《人类理解研究》,商务印书馆,1997年。 ③恩格斯:《反杜林论》; 《马恩选集》第三卷第361页。 ・080・ 义反复。 正确的观点应该明确研究因果关系是一种什么样的相互关系,而这一点经过20世纪 自然科学和数理哲学的研究已经有了更深刻的认识。逻辑主义、形式主义和直觉主义对 数学基础的研究,计算机的发明,使得人们开始从计算机语言表达、传递信息的角度来 理解知识的起点,认识和外部世界的关系。大数据时代的到来更使人们豁然开朗。 正如我在前面已提出“大数据时代不再强调因果关系,也不是简单地将因果关系归 为相互关系,而是精确地指出客观事物运动序列之间存在同构关系,特别是人类认识与 外部客观事物之间存在对应的、同构关系,信息的表达、传输和存储就是一种同构关系,① 也就是说,外部客观事物运动与人的主观认识运动,都是客观世界的事物现象,是协调 性的、一一对应的相互关系,主观认识映像只是承载、传递外部客观事物现象的一种符 号系统。无论是从人自身悟出来,还是从外部经验事物抽像出来,都是同构的、对应的 关系。 (二)“不是随机样本而是全体数据”?——全体数据永远不可穷尽.大数据时代是 以巨量、高速、即时数据为基础,实现云计算和人工智能方式认识对象 《时代》一书认为,大数据时代,“不是随机样本而是全体数据”,认识事物不再是 从随机抽取的部分样本,而是从全部数据出发。这种说法是不懂全部与部分的辩证关系。 首先,人类在有限的时间内不可能穷尽事物的全部,绝对真理只能在人类前后相继的、 永远不会停止的认识过程中实现。任何事物的发展总是有过去、现在和未来,现在的是 现在,未来的尚未出现,全部案例不可能在有限时间内达到,认识也永远不会完结。未 来的与过去和现在相比,还是无穷大的。正因为如此,波普尔才提出, “全称命题不可 证实,只能证伪"。 。实际上,从过去的小数据时代的抽样调查方法,到现在大数据方法相比只能说是大 数据时代可以用更为精确的、全面的数据,以包含更大因素的仿真模型来追踪、分析模 拟现实,取得比过去更为精确的认识结果。尽管如此,与全体相比已经认识的永远是少 数,误差、错误还是不能完全消除。例如,通过人口普查分析现在中国人具有什么特点? 不要说全部认识现有l3亿人口的全部属性不可能(因为事物属性也是有无穷层次的), 即使说能够完全认识现有l3亿人口全部属性,也不意味着过去、未来的中国人也能够全 部认识。未来的中国人与已经认识的现有的中国人相比还是无穷大。因此,大数据与现 在的小数据相比只是以巨量的、全面的、即时的数据来认识事物,但是要掌握全体数据, ①李德伟:《大数据的数理哲学原理》,《光明日报》2012年12月25日理论版;李德伟等:《大数 据改变世界》,电子工业出版社,2013年;《大数据小故事》,中国标准出版社,2014年。 全球化2014年第9期 在有限时间内总是不可能的。 (三)“不是精确性,而是混杂性”?——应该是更为全面、精确的认识,以至于对 模糊和精确的度量都更为准确。 《时代》作者说大数据时代“不是精确性,而是混杂性”,意指小数据时代是讲究精 确性,大数据时代因为掌握了大量数据可以不再拘泥于精确性,而是依靠大数据比较模 糊地行动。这显然是错误的。因为在小数据时代方法能够掌握精确的小数据,但是大多 数数据却因处理能力有限而被遗漏、舍弃,认识的结果就无法实现精确、全面,真理和 错误的边界也不是很清楚,这时的认识是模糊的、有偏差的。在大数据时代,因为掌握 了更为全面的数据,可以在更大的时间和空间范围认识事物,因此能够更为准确、量化, 以至于对一些事物现象的中间模糊区域也可以得到更为准确的认识,其精确度和模糊度、 误差本身都更为精确量化。例如,在计算机信息系统中发布更多的信息,通过反复比对、 纠错机制,可以降低噪音、提高精确度。实际上,在人类感官系统的进化过程中就形成 了互相比对、纠错的五官,如果“耳听为虚”,就以“眼见为实”来纠错,小数据传递一 两个来回不可能正确转递信息,就必须通过反复多次大数据比对,就能达到越来越高的 精确度,误差率就越来越小。 综上所述,应该指出,大数据的迅速推广,是一种可喜可贺的现象,但中国目前有 一种极为严重的盲目从外的现象,总是不问青红皂白,盲目跟外国人之口风。我早就预 言,“信息化是上帝给中国崛起准备的礼物”。因为中国人口世界第一,信息产业市场最 大,最有机会发展信息化、大数据和智慧化产业。例如,比较其他国家,电子商务在中 国更有发展空间。互联网金融在世界上还刚刚露头,但是在中国,已经成为当前最为受 关注,最不可阻拦的金融创新。还有其他创新,如微信、支付宝、余额宝等等,相信智 慧化时代也会在中国得到突飞猛进的发展,中国的现代化、社会主义民主建设等等都将 在信息化和大数据浪潮中实现。因此,中国的信息化、大数据和智慧化速度和规模也一 定会超过世界其他国家。因为“信息化是上帝给中国崛起准备的礼物”,千万不要因盲从 国外而将上帝送来的礼物又让给别人了! 责任编辑:刘英奎 ・082・