NNK2006的头脑风暴
注册日期:
2008-4-7
上次登录:
2016-11-02 17:07:36
邮件地址:
908046384@qq.com
  NNK2006的头脑风暴
NNK2006的更多标签
产生论——机器产生知识的理论
2013-03-30 00:45:24  逻辑  机器人  人工智能 

产生论——机器产生知识的理论

目录
产生论 1
——机器产生知识的理论 1
前言 4
第一章 巨脑 7
1.1 热力学第二定律 7
1.2 信息熵 9
1.3 耗散结构理论 10
1.4 不确定性原理 13
1.5 哥德尔不完备定理 16
1.6 逻辑学 19
1.7 关系代数 24
1.8 演绎推理和归纳推理 29
1.9 神经网络和条件反射 36
第二章 产生论 41
2.1 从集合论到产生论 41
2.2 产生系统 43
2.3 产生系统网络 46
2.4 系统寿命 49
2.5 系统记忆 52
2.6 概率化和反概率化 55
2.7 产生系统核心结构 56
2.8 7种基本过程和3种基本对象 58
2.9 时间等级 60
2.10 时间量子、时间块 63
2.11 时间单元之间的关系 67
2.12 时间单元的两面性 69
2.13 产生系统间的交互 72
2.14 主要的数据结构和过程 75
2.15 内部循环过程 78
2.16 交互循环过程 82
2.17 交互循环组成会话 86
2.18 实体网络 89
第三章 产生系统 96
3.1 产生系统示意图 96
3.2 实体网络 97
3.3 4种产生过程 100
3.4 确定度 104
3.5 等级确定度、等级实体数 106
3.6 树状结构、网状结构 108
3.7 4种基本属性 112
3.8 3向无环网络 114
3.9 结构化、量化 118
3.10 主客交互、顶点 123
3.11 确定度流速、确定度流 126
3.12 主客确定度流 129
3.13 3维网络 134
3.14 3维网络的例子 138
3.15 中间级、顶级 150
3.16 客体组、客体 153
后记 156

2013-03-30 00:49:44
   前言
  建造一台巨型超级计算机,存储人类所有的知识,解答人类所有的问题,把人类从繁重的脑力劳动中解放出来,这是人类长久的梦想。“巨型超级计算机”这样的词汇过于冗长,为了简单起见,我想使用“巨脑”来描述这样一个属于未来的东西,一个属于全人类的巨型大脑。
  关于巨脑的梦想至少在3部著名的科幻作品中给人留下了深刻印象:
1. 阿西莫夫的科幻小说《最后的问题》。大意是:未来的人类建造了一代又一代的巨脑,巨脑会帮助人类解答各种各样的问题,但有一个终极问题无法解答,这就是:太阳熄灭以后,能否重新燃烧。或者说:宇宙的能量全部转化为熵以后,能否再逆转过来。
2. 科幻电影《终结者》。在这部电影中,人类建造了巨脑“天网”并通过它来管理所有机器人,没成想巨脑反过来率领机器人大军打败了人类,把人类踩到了地底。巨脑对人类实行暴力镇压,激起了人类的反抗。
3. 科幻电影《黑客帝国》。这个名叫“矩阵”的巨脑比天网更进了一步,它不但在肉体上而且从精神上控制了人类,让人类生活在一个幸福美好的虚拟世界中,这样人类就不会起来反抗。但是所有程序都会有Bug,巨脑也不例外。因此有一小部分人类看到真相并发动革命。人类革巨脑的命,实际上是升级了巨脑,所以说人类与巨脑已经互相离不开对方,双方相互斗争的历史就是双方相互促进共同前进的历史。
  科幻作品终将会变成现实,至少在一定程度上是这样。那么就让我们看看我们周围哪些东西更像是巨脑,或者说正在朝巨脑的方向走。
1. Google。一个巨型搜索引擎,它能存储并检索互联网上的几乎所有网页。
2. Wikipedia。一部放到网上的百科全书,它也是世界上最大的百科全书。
3. Facebook。世界上最大的社交网站,理论上它能存储所有人的留言、图片、人际关系及行动轨迹。
  以上3个网站,代表了三代不同类型的巨脑。传统的信息是分散在互联网的一台台计算机中的,Google对它们进行了统一存储并建立索引、排序,这样人类可以很方便地检索整个互联网,这是一大进步。
  互联网上的信息充满了重复、矛盾和垃圾,Google直接对互联网进行检索,因此它也就继承了这些重复、矛盾和垃圾。所以用Google检索的结果虽然多,有用的却不多。Wikipedia不存储信息,而是存储百科知识,所以能最大限度地消除重复、矛盾和垃圾。它的信息量比Google少得多,含金量却很高。这又是一大进步。
  Wikipedia存的是百科知识,所谓百科知识,就是共性化的、公众的、经过历史沉淀的、相对静态的知识。它不存个性化的、私有的、鲜活的、动态的知识。实际上共性化知识是个性化知识的子集,如果能存储所有个性化知识,实际上也就存储了所有共性化知识。Facebook实现了个性化知识的存储,因此它又向着巨脑的方向迈进了一大步。
  既然Wikipedia和Facebook中存储的知识比Google中存储的信息质量更高,那么它们为什么没能把Google从互联网霸主的宝座上赶下来呢?要解答这个问题,就要回顾一下Google是如何登上宝座的。Google之前的互联网霸主,是如今快要被遗忘的雅虎。雅虎是第一代搜索引擎,它靠的是人工方式对互联网建立索引。而Google则是机器自动建立索引。互联网信息量太大,请再多的人也建不过来。只有雇佣大规模的机器大军,才能给整个互联网建立索引。所以,互联网的巨头之战反映的是科幻作品中永恒不变的主题——人机斗争。
  Google战胜了雅虎,说明机器赢了一局。Wikipedia和Facebook中的内容都是人工填写的,它们的风头盖过了Google,这说明人类又扳回了一局。但它们不能彻底淘汰Google,这说明机器的力量非常强大,尽管它搜索的信息质量不高,但架不住数量庞大,覆盖面广,不管找什么总会有结果。
  可见,未来的巨脑将能集成Google、Wikipedia、Facebook三者的优点。一方面,它能提供共性化和个性化知识,而非简单的信息;另一方面,它能雇佣机器大军进行自动运算而非完全依靠人类手工填写。
  或者说,巨脑应具有以下3个特点:
1. 知识架构。
2. 与人类交互。
3. 机器产生知识。
  所谓知识架构是指:巨脑的架构是基于知识的而非基于信息的。如果是基于信息的那倒简单了,只要花足够多的钱,堆足够多的机器,总能把所有信息都存进来。Google就是这么干的。
  传统计算机的架构是信息架构,而人类大脑的架构是知识架构。知识与信息的区别,从表面上看至少有以下几点:
1. 信息重复多,知识重复少。在计算机中把一个1MB的文件复制100份,就得到了100MB的信息。而在大脑中,不可能把一个知识复制多份。大脑只记忆新知识,不会重复记忆已经存在的知识。
2. 信息歧义多,知识歧义少。在Google中搜一个姓名,会得到许多个重名的人。而大脑中每个人名只指代一个人,如有重名就会用某种最方便的方法加以区分。如“大张三”、“小张三”、“男张三”、“女张三”等。
3. 信息垃圾多,知识垃圾少。计算机中会存储很多跟计算机本身以及计算机的所有者本人无关的信息,而大脑中很少会存储与本人无关的知识。
4. 信息关联少,知识关联多。信息是分散的,各个单元相互之间关联很少。而知识是一个整体,各个单元相互之间关联很强。
5. 信息容易删除,知识难以删除。在计算机中删掉一个文件很容易,而在大脑中删掉一个知识很难。
6. 信息不会遗忘,知识会遗忘。计算机中的文件如果不删,就会一直保存下来,并且能检索到。而大脑中的知识随着时间的增长,如果不使用的话,就会逐渐遗忘。需要注意的是,遗忘不等同于删除。遗忘的知识还存在于大脑之中,只是暂时找不到它了,可能在某个时候又会找到它。
  所谓与人类交互是指:巨脑应能通过与人类交互的方式产生知识,并实现人与人之间的沟通。不是人类说一个Hello,机器答一个Hello这么简单,而是说机器能在与一个人的交互过程中获得新知识,并在与另一个人的交互过程中把新知识传递给他。
Facebook能够实现与人类的直接交互,而Google则不能。
  所谓机器产生知识是指:巨脑本身不是一个人、一群人或某种生物,它是一台机器或一群机器。这台机器不仅能在与人类交互的过程中获得知识,而且能利用已有知识自动产生新知识。
  Google能自动抓取网页并建立索引,索引就可以看成是根据已有信息产生的新知识,当然这种新知识还比较低级。而Facebook在产生新知识方面的能力就比较弱,它的知识主要靠与人类的交互获得。
  总之,巨脑的3个特点中,知识架构是基础,与人类交互和机器产生知识是在此基础上的功能。Google和Facebook的知识架构都不够完善,所以它们的功能也不完善,只不过一个偏向于机器产生知识,一个偏向于与人类交互。未来的巨脑,应该同时具有这3方面的特点。
  Google们早就想建造新一代巨脑了,之所以没建成,正是因为缺乏一个合适的知识架构。不是钱的问题,也不是硬件和软件的问题,而是知识架构的问题,是哲学、逻辑和基础科学的问题。
  巨脑需要创新,不仅需要包括云计算、大数据、人工智能、人工神经网络等信息技术方面的创新,更需要基础科学方面的创新。建造巨脑,需要我们用一种全新的视角来看待世界,需要有一个深厚的科学基础,需要一套关于知识的知识。
  因此,本文将尝试从基础科学的层面开始,探讨如何建造一个巨脑。
2013-03-30 00:50:20
  

第一章 巨脑
1.1 热力学第二定律
  《最后的问题》中的问题:太阳熄灭以后能否重新燃烧,它的本质是对热力学第二定律的质疑。热力学有三大定律,此外还有第零定律。热力学定律是宏观世界的基础,当然也是巨脑的基础,因此有必要认真研究一下它们。以下摘自百度百科:
  热力学第零定律:如果两个热力学系统中的每一个都与第三个热力学系统处于热平衡,那么它们也必定处于热平衡。第零定律又称温度定律。第零定律是三大定律的基础。
  热力学第一定律:一个热力学系统的内能增量等于外界向它传递的热量与外界对它做功的和。如果一个系统与环境孤立,那么它的内能将不会发生变化。第一定律就是能量守恒定律。能量守恒定律的定义是:能量既不能凭空产生,也不能凭空消失,它只能从一种形式转化为另一种形式,或者从一个物体转移到另一个物体。能量守恒定律宣告第一类永动机不可能制成。第一类永动机是:不消耗能量而永远对外做功的机器。第一类永动机违反了能量守恒定律。
  热力学第二定律有几种表述方法:克劳修斯表述:热量可以自发地从较热的物体传递到较冷的物体,但不可能自发地从较冷的物体传递到较热的物体;开尔文-普朗克表述:不可能从单一热源吸取热量,并将这热量变为功,而不产生其他影响;熵表述:随时间进行,一个孤立体系中的熵总是不会减少。第二定律说明:一切宏观过程都具有方向性,这个方向性就是:一切宏观过程总是沿着分子热运动的无序性增大(熵增)的方向进行。热力学第二定律宣告第二类永动机不可能制成。第二类永动机是:只从单一热源吸收热量,使之完全变为有用的功而不引起其他变化的热机。第二类永动机效率为100%,虽然它不违法能量守恒定律,但大量事实证明,在任何情况下,热机都不可能只有一个热源,热机要不断地把吸取的热量变成有用的功,就不可避免地将一部分热量传给低温物体,因此效率不会达到100%。第二类永动机违反了热力学第二定律。
  热力学第三定律:绝对零度时,所有纯物质的完美晶体的熵值为零。另一种表述形式:任何系统都不能通过有限的步骤使自身温度降低到绝对零度。第三定律又称为绝对零度不能达到原理。
  热力学定律说明:世界是一个大的热力学系统(热机),它由许许多多个小的热力学系统(热机)组成,地球、人、汽车、电脑以及巨脑都是其中之一。也就是说:巨脑不是什么神秘的东西,它就是一个不断消耗能量的热机。
  巨脑能与人对话,巨脑能存储知识,巨脑能解答问题,这些都只是表面现象,其本质就是:一台遵循热力学定律的热机。这一点虽然简单,但却至关重要。
  那么,巨脑这个热机,与人、汽车等其它热机有什么区别呢?或者说,未来的巨脑,与现在的Google们有什么区别呢?说到底,热机与热机的区别是什么?
  热机与热机的区别有4:
  1.输入能量的种类和等级;
  2.输出有效能量的种类和等级;
  3.输出有效能量与输入总能量之比,即热机效率;
  4.单位时间、单位质量输出的有效能量,即单位功率。
  能量是分种类和等级的。最基础的是核能,核能产生太阳光能,进而产生风能、水能、热能,然后又产生生物能、化学能、电能,最后产生人类所需的机械能、信息、知识。不同热机输入和输出的能量种类和等级是不一样的。
  传统的热机效率是指:转变为有用功(机械能)的热量跟燃料燃烧时放出的热量(化学能)的比。传统的热机效率仅适用于发动机,例如(以下摘自百度百科):
* 蒸汽机:6%——15%
* 蒸汽轮机:25%——30%
* 燃气轮机:50%——60%
* 汽油机:20%——30%
* 柴油机:30%——45%
* 喷气发动机:50%——60%
  电脑和巨脑不是发动机,它们不直接燃烧燃料,也不直接输出机械能,但它们同样要输入某种形式的能量(电能),输出某种形式的有效能量(信息、知识)。所以它们的热机效率应该稍加修改:输出有效能量与输入总能量的比,叫热机效率。
  因此,未来的巨脑要想超过现在的Google们,那么它的热机效率一定要高过Google们。但无论多高,都不会达到100%,因为这将违反热力学第二定律。
  一般来说,热机的单位功率越大越好。以下摘自百度百科:一战时法国的雷诺坦克,单位功率只有4.8千瓦/吨左右。二战后期,德国的虎式坦克单位功率提高到15千瓦/吨。而现代坦克,如挑战者等则到20千瓦/吨。
  飞行器的单位功率比坦克更高,但它们一般用类似的推重比来代替单位功率。从客机到轰炸机、战斗机、液体导弹、固体导弹,它们的推重比依次升高。
  未来巨脑的单位功率,同样也要超过现在的Google们。
  热力学第二定律宣布:一切宏观过程都沿着熵增的方向进行。这就是说,世界的发展是不可逆的。悲观的解读就是:能量终将会耗尽,太阳终将会熄灭,熵终将会充满宇宙,包括人类在内的整个世界终将会彻底毁灭。所以热力学第二定律是争议最大的定律,所以最后的问题才会是对它的绝望的质疑。但至少现在,还没有证据能够证明这个冷酷的定律有任何可以讨价还价的余地。
  既然能量的耗尽是不可避免的,那么,这些宝贵而有限的能量能否多用一段时间呢?
  能量是被谁耗尽的?其实就是被包括地球、人类、汽车、电脑、巨脑在内的大大小小的热机耗尽的。热机有两个基本参数:热机效率和单位功率。提高热机效率可以延缓能量消耗的速度,而且热机效率确实也是在逐步提高,汽油机比蒸汽机效率高,喷气机比汽油机效率高,未来的巨脑必定比今天的Google效率高。这是个好消息,这说明能量消耗的速度在逐步放慢。
  但是,还有一个参数:单位功率。随着时间的发展,热机的单位功率也在逐步提高,飞机比汽车单位功率高,火箭比飞机单位功率高。热机效率的提高是很有限的,因为它最多也不会达到100%。单位功率却没有上限,从汽车到火箭的单位功率提高了好几个数量级,这就意味着汽车消耗一年的能量,用同样质量的火箭几分钟就消耗完了。而且以后还会出现新的热机,比如核火箭,它的单位功率比目前的化学火箭还会再提高几个数量级。也就是说,热机效率的提高远远跟不上单位功率的提高,热机消耗能量的速度必定会越来越快。这就更加令人绝望了:能量不但会耗尽,而且还会加速耗尽。
  或许有人会反驳:单个热机的单位功率升高,但说不定热机个数和热机质量会下降,由此导致热机的总功率会下降,因此能量消耗的速度不会加速。
  事实上,宇宙本身也遵守热力学定律,也是一台热机,因此它的单位功率也在升高。而且宇宙的质量在不断减少,因为质量也是能量的一种形式,而且是能量的主要形式,大多数能量都存储在质量中。所谓能量消耗,也包括了质量能量的消耗。也就是说,随着宇宙能量的下降,其质量也在下降。宇宙单位功率的升高和质量的减少两个因素加起来产生的结果就是:宇宙的总功率未必会升高或降低,但能量和质量消耗的速度(以宇宙的剩余寿命占总寿命的百分比来计算)必定在加快。
  我们为什么要越来越快地消耗能量?就不能慢一点消耗吗?确实不能。比如你要从北京到上海旅游,你是会选择步行呢,还是坐飞机?步行肯定消耗能量慢,但你不会那么做。古人曾经这么做过,但他们已经被淘汰了。又比如你在互联网上搜某个单词,你是希望在1秒钟内搜遍整个互联网呢,还是希望一年以后再出结果?如果一年后再出结果,你还能在公司干下去吗?你的公司还能干下去吗?
  所以,宇宙中的热机们就好像在参加一场争夺能量的比赛,越快的热机获得的能量越多,越慢的热机获得的能量越少。获得能量多的热机可以加速,而获得能量少的热机只能减速。因此快的热机越来越快,慢的热机越来越慢,直至停机(死亡)。随着时间的发展,竞争日趋白热化,赛场上的热机越来越少,速度也越来越快,最终只剩下一个,它战胜了所有对手,获得了做为冠军应得的奖励。这个奖励是什么呢?因能量耗尽而死亡。
1.2 信息熵
  既然衡量巨脑的指标是热机效率和单位功率,那么Google们的热机效率是多少?单位功率又是多少?
  实际上Google们的热机效率和单位功率是难以计算的,其输入电能好计算,但输出的信息和知识不好计算。以下摘自百度百科:
  信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。
  信息熵:信息的基本作用就是消除人们对事物的不确定性。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。
  熵的概念源自热力学。假定有两种气体a、b,当两种气体完全混合时,可以达到热力学中的稳定状态,此时熵最高。如果要实现反向过程,即将a、b完全分离,在封闭的系统中是没有可能的。只有外部干预(信息),也即系统外部加入某种有序化的东西(能量),使得a、b分离。这时,系统进入另一种稳定状态,此时,信息熵最低。热力学证明,在一个封闭的系统中,熵总是增大,直至最大。若使系统的熵减少(使系统更加有序化),必须有外部能量的干预。
  信息熵的计算是非常复杂的。而具有多重前置条件的信息,更是几乎不能计算的。所以在现实世界中信息的价值大多是不能被计算出来的。但因为信息熵和热力学熵的紧密相关性,所以信息熵是可以在衰减的过程中被测定出来的。因此信息的价值是通过信息的传递体现出来的。在没有引入附加价值(负熵)的情况下,传播得越广、流传时间越长的信息越有价值。
  熵首先是物理学里的名词。在传播中是指信息的不确定性,一则高信息度的信息熵是很低的,低信息度的熵则高。具体说来,凡是导致随机事件集合的肯定性,组织性,法则性或有序性等增加或减少的活动过程,都可以用信息熵的改变量这个统一的标尺来度量。
  信息熵提供了对信息进行量化度量的算法公式,尽管计算起来很复杂,但仍然是有意义的。而且它与热力学熵紧密联系在了一起。这就说明:信息和知识在本质上是跟汽油和电力一样的能量。这也说明:电脑和巨脑在本质上是跟汽车和人类一样的热机。
1.3 耗散结构理论
  能量和熵都是量化的度量,它们与一个非量化的概念紧密联系在一起,这就是结构。不管是核能、光能、化学能、电能还是机械能、信息、知识,它们都具有某种特定的结构。核能的结构是原子核,光能的结构是光子,化学能的结构是分子,电能的结构是电子和离子,机械能的结构是机械,信息的结构是信息,知识的结构是知识。能量一定有结构,结构一定有能量,它们是一枚硬币的正反两面。
  之所以我们在日常生活中会认为能量与信息是差别很大的两种东西,就是因为我们看待能量时往往注重它的量化的一面,而看待信息时往往注重它的结构化的一面。比如家里用了多少度电,汽车用了多少升油,这就是能量给我们的印象。我们不会关心水电跟火电的差别,也不会关心中石化的油跟中石油的油的差别。而我们看电视时,就不太关心每部电视剧有多少GB,我们更关心电视剧的剧情、人物等。我们从来不会把两部GB数一样的电视剧当成是一部电视剧,却经常会把今天用的电和昨天用的电当成是一样的电——实际上它们肯定不一样。如果我们把电当成电视剧来看,就能看到:今天的水电讲述了一个长江白鳍豚被巨大的水轮机吞噬的故事,明天的火电讲述了一个温室效应导致绿色的草原变成荒漠的故事,后天的核电讲述了一个核泄漏导致整个城市癌症发病率升高的故事。
  热力学描述的主要对象是包括能量和熵在内的量化的度量,结构在热力学中被简化成不能再简化的地步:一群处于无规则运动中的无差别的分子。热力学的重视能量轻视结构的特点继承自牛顿力学,牛顿力学中的结构是质点:有质量的点。牛顿力学中的结构是一个质点,热力学中的结构是一群质点。由此可见牛顿力学是热力学的基础。
  牛顿力学和热力学对结构的简化是有意义的,如果不做这种简化,就不能看到世界的本质(至少是一部分本质),就不能得出牛顿力学和热力学,世界就不能进入现代文明。
  但是,把结构简化成质点这种做法,既是成功的,又是片面的。既然牛顿力学和热力学把结构简化掉了,那么在牛顿力学和热力学中就永远也看不到真实的结构。研究牛顿力学和热力学的人经常会感到困惑:一群再简单不过的质点是如何形成自然界中的鸟鱼花草的?没有结构的东西是如何形成复杂结构的?没有思想的原子和分子是如何形成有思想的人的?甚至有人猜测有一种叫“自我”或“自由意志”的看不见摸不着的神秘物质,是它把质点组合成了复杂结构。
  这就像寓言故事里讲的一样:盲人摸到了象耳朵,他就认为大象是蒲扇形的;摸到了象腿,他就认为大象是柱子形的。盲人无论如何也不能理解大象为什么既是蒲扇形的,又是柱子形的。如果非要让他解释,他就只能说:可能是因为大象具有某种神秘的、超自然的力量,因而能够从蒲扇形突然变幻成柱子形。
  所以,牛顿力学和热力学是人类发明的伟大理论之一,它们说到底就是一种理论,一件工具。它能计算行星轨道,不代表它就能解释鸟鱼花草,实际上它本来就不是干这个的。再好的刀子也钉不了钉子。
  热力学的简化很多,它不仅把结构简化掉了,而且还把系统状态简化成了平衡态。热力学第零定律写得很明白:如果两个热力学系统中的每一个都与第三个热力学系统处于热平衡,那么它们也必定处于热平衡。也就是说,第零定律考虑的是平衡态的情况。而第零定律又是三大定律的基础,所以整个热力学基本上都是关于平衡态的学说。当然这种简化很好很成功,但它确实不全面,因为它没考虑平衡态以外的情况。
  在非平衡态方面做的研究,最著名的就是普里高津和他的耗散结构理论。以下摘自百度百科:
  普里高津认为,只有在非平衡系统中,在与外界有着物质与能量的交换的情况下,系统内各要素存在复杂的非线性相干效应时才可能产生自组织现象,并且把这种条件下生成的自组织有序态称之为耗散结构。
  从热力学的观点看,耗散结构是指在远离平衡态的非平衡态下,热力学系统可能出现的一种稳定化的有序结构。所谓耗散,指系统与外界有能量的交换;而结构则说明并非混沌一片,而是在时间与空间上相对有序。事实上,耗散结构理论就是研究系统怎样从混沌无序的初始状态向稳定有序的组织结构进行演化的过程和规律,并且试图描述系统在变化的临界点附近的相变条件和行为。
  耗散结构是在远离平衡区的非线性系统中所产生的一种稳定化的自组织结构。在一个非平衡系统内有许多变化着的因素,它们相互联系、相互制约,并决定着系统的可能状态和可能的演变方向。一个典型的耗散结构的形成与维持至少需要具备三个基本条件:一是系统必须是开放系统,孤立系统和封闭系统都不可能产生耗散结构;二是系统必须处于远离平衡的非线性区,在平衡区或近平衡区都不可能从一种有序走向另一更为高级的有序;三是系统中必须有某些非线性动力学过程,如正负反馈机制等,正是这种非线性相互作用使得系统内各要素之间产生协同动作和相干效应,从而使得系统从杂乱无章变为井然有序。也就是说,系统的发展过程完全可以经过突变,通过能量的耗散与系统内非线性动力学机制来形成和维持与平衡结构完全不同的时空有序结构。这就是耗散结构理论的精髓之所在。一个对象要想在实践中获得存在与发展,必须不断地从外界引入负熵,以抵消对象体内正熵的增加,从而确保对象不断地走向更高层次的稳定有序结构。
  普里高津把结构称为耗散结构,这种说法非常准确,以至于显得有些多余。所有的结构都是耗散结构,因为结构一定是要消耗能量(或者说负熵)的,结构与能量本来就是一体两面。而且消耗能量也一定会产生结构或者结构的变化,只不过有时这种结构比较明显(有序),有时这种结构不太明显(无序)。
  普里高津还认为,结构由低到高分为多个层级,低层级结构逐步地组成高层级结构。而能量恰恰也是这种由低到高的层级结构。能量的层级与结构的层级是吻合的,这再次说明:能量和结构是一体的。
  既然结构能消耗低等级能量输出高等级能量,那么它到底是什么呢?不是别的,就是热机。如果用热机比赛的比喻来看,耗散结构理论是这样的:所谓平衡态(无序)其实就是热机们相互之间自由竞争,跑得快的活,跑得慢的死;所谓非平衡态(有序)其实就是热机们相互之间合作,跑得快的放慢一点,跑得慢的加快一点,大家速度一样,这样大家都不会死(其实是死得晚一些,一齐死)。也就是说,有序的原因和无序的原因从本质上讲是一样的,都是热机比赛中的自然现象,都是能量转化为熵的必然步骤。
  宇宙中的热机既不是完全竞争、完全你死我活地向前发展,也不是完全合作、完全步调一致地向前发展,而是介于二者之间,既有竞争又有合作,既有平衡态又有非平衡态,既有无序又有有序。热机们就是这样一边合作一边竞争地走向终点的。不是因为热机有自由的意志或者崇高的道德所以它们才会竞争或者合作,而是因为它们在能量耗尽过程中有时偏向于竞争有时偏向于合作,所以才表现出自由的意志或者崇高的道德。
  因此,根本就不存在“简单的质点如何产生复杂的鸟鱼花草”或者“有两种系统,一种是平衡态系统,一种是非平衡态系统”这样的问题,平衡态和非平衡态本就混在一起。宇宙是一个由平衡态和非平衡态交错混合组成的夹心饼干。

  所以,地球、人类、汽车、电脑、巨脑这些热机,它们既有能量的属性,又有结构的属性。它们既是低级能量的消费者,又是高级能量的生产者。它们像一个个房间、一层层楼宇一样组成了世界这座大厦。能量、信息和知识,就蕴藏在这座大厦的结构之中。
  这座大厦不是死的而是活的,它不断地在低级能量的基础上产生高级能量,在低级结构的基础上产生高级结构。由于热机效率一定是小于1的,所以高级能量的总量一定小于低级能量的总量,也就是说:这是一座不断长高的金字塔形的大厦。
  热力学第二定律之所以是悲观的,就是因为它是片面的。它只看到了能量会不可逆转地耗尽,熵会不可逆转地增长,却没看到:结构,或者说知识,同样也会不可逆转地产生。文明的产生不仅是偶然更是必然。
  能量会产生知识,这并不违背热力学第二定律。因为知识的等级越高所占的能量总量越少。古代文字是刻在石头上、甲骨上、竹子上、纸上,现在是存储在硬盘里。一块硬盘估计可以存下所有的文字书籍了。实际上,早在硬盘出现以前几十亿年,大自然就演化出了高级知识的载体,这就是DNA。DNA既可以承载知识,又可以进行自我复制,实现遗传和变异,而它的自身所占的能量和质量却又非常之小。硬盘中存储的计算机程序其实就很像DNA。在未来,到了人类进化的顶级阶段,有可能把全宇宙的知识存储在一个能量近似于零的量子中。
  能量和结构有等级,热机也有等级。热机与热机的区别中,热机效率和单位功率只是量的差别,等级才是质的差别。未来的巨脑是比Google们更高等级的巨脑,它将能产生比全文索引和排序更高等级的知识。有一天巨脑会产生出关于整个宇宙的顶级知识,然后把它打包压缩成一个量子,在宇宙毁灭前把它丢进黑洞中,宇宙本身也将被无数黑洞吞没。量子由于极其微小,所以可以穿越黑洞到达另外一个未知的世界,在那里生长、进化、遗传、变异,创建新一代宇宙。这恐怕才是巨脑的终极使命。

2013-03-30 00:50:52
  

1.4 不确定性原理
  以下摘自百度百科:
  不确定性原理是由德国物理学家海森堡于1927年提出的,具体指在一个量子力学系统中,一个粒子的位置和它的动量不可被同时确定。一个微观粒子的某些物理量(如位置和动量,或方位角与动量矩,还有时间和能量等),不可能同时具有确定的数值,其中一个量越确定,另一个量的不确定程度就越大。测量一对共轭量的误差(标准差)的乘积必然大于常数 h/4π(h是普朗克常数)。不确定性也是一种波的特性。在经典物理中波也有不确定性。比如波的频率和波到达的时间之间就有不确定性。要测量频率,就要等几个波峰的到达,但这样一来波到达的时间就没法被精确地测量了。
  霍金谈不确定性原理:
  科学理论,特别是牛顿引力论的成功,使得法国科学家拉普拉斯侯爵在19世纪初论断,宇宙是完全被决定的。他认为存在一组科学定律,只要我们完全知道宇宙在某一时刻的状态,我们便能依此预言宇宙中将会发生的任一事件。例如,假定我们知道某一个时刻的太阳和行星的位置和速度,则可用牛顿定律计算出在任何其他时刻的太阳系的状态。这种情形下的宿命论是显而易见的,但拉普拉斯进一步假定存在着某些定律,它们类似地制约其他每一件东西,包括人类的行为。
  很多人强烈地抵制这种科学宿命论的教义,他们感到这侵犯了上帝干涉世界的自由。但直到20世纪初,这种观念仍被认为是科学的标准假定。这种信念必须被抛弃的一个最初的征兆,是由英国科学家瑞利勋爵和詹姆斯·金斯爵士所做的计算,他们指出一个热的物体——例如恒星——必须以无限大的速率辐射出能量。按照当时我们所相信的定律,一个热体必须在所有的频段同等地发出电磁波(诸如无线电波、可见光或X射线)。例如,一个热体在1万亿赫兹到2万亿赫兹频率之间发出和在2万亿赫兹到3万亿赫兹频率之间同样能量的波。而既然波的频谱是无限的,这意味着辐射出的总能量必须是无限的。
  为了避免这显然荒谬的结果,德国科学家马克斯·普郎克在1900年提出,光波、X射线和其他波不能以任意的速率辐射,而必须以某种称为量子的形式发射。并且,每个量子具有确定的能量,波的频率越高,其能量越大。这样,在足够高的频率下,辐射单独量子所需要的能量比所能得到的还要多。因此,在高频下辐射被减少了,物体丧失能量的速率变成有限的了。
  量子假设可以非常好地解释所观测到的热体的发射率,但直到1926年另一个德国科学家威纳·海森堡提出著名的不确定性原理之后,它对宿命论的含义才被意识到。为了预言一个粒子未来的位置和速度,人们必须能准确地测量它现在的位置和速度。显而易见的办法是将光照到这粒子上,一部分光波被此粒子散射开来,由此指明它的位置。然而,人们不可能将粒子的位置确定到比光的两个波峰之间距离更小的程度,所以必须用短波长的光来测量粒子的位置。现在,由普郎克的量子假设,人们不能用任意少的光的数量,至少要用一个光量子。这量子会扰动这粒子,并以一种不能预见的方式改变粒子的速度。而且,位置测量得越准确,所需的波长就越短,单独量子的能量就越大,这样粒子的速度就被扰动得越厉害。换言之,你对粒子的位置测量得越准确,你对速度的测量就越不准确,反之亦然。海森堡指出,粒子位置的不确定性乘上粒子质量再乘以速度的不确定性不能小于一个确定量——普郎克常数。并且,这个极限既不依赖于测量粒子位置和速度的方法,也不依赖于粒子的种类。海森堡不确定性原理是世界的一个基本的不可回避的性质。
  不确定性原理对我们世界观有非常深远的影响。它使拉普拉斯科学理论,即一个完全宿命论的宇宙模型的梦想寿终正寝:如果人们甚至不能准确地测量宇宙的现在的态,就肯定不能准确地预言将来的事件了!在不确定性原理的基础上,海森堡、厄文·薛定谔和保尔·狄拉克运用这种手段将力学重新表达成称为量子力学的新理论。在此理论中,粒子不再有分别被很好定义的、能被同时观测的位置和速度,而代之以位置和速度的结合物的量子态。
  一般而言,量子力学并不对一次观测预言一个单独的确定结果。代之,它预言一组不同的可能发生的结果,并告诉我们每个结果出现的概率。也就是说,如果我们对大量的类似的系统作同样的测量,每一个系统以同样的方式起始,我们将会找到测量的结果为A出现一定的次数,为B出现另一不同的次数等等。人们可以预言结果为A或B的出现的次数的近似值,但不能对个别测量的特定结果作出预言。因而量子力学为科学引进了不可避免的非预见性或偶然性。尽管爱因斯坦在发展这些观念时起了很大作用,但他非常强烈地反对这些。他之所以得到诺贝尔奖就是因为对量子理论的贡献。即使这样,他也从不接受宇宙受机遇控制的观点;他的感觉可表达成他著名的断言:“上帝不玩弄骰子。”然而,大多数其他科学家愿意接受量子力学,因为它和实验符合得很完美。它的的确确成为一个极其成功的理论,并成为几乎所有现代科学技术的基础。它制约着晶体管和集成电路的行为,而这些正是电子设备诸如电视、计算机的基本元件。它并且是现代化学和生物学的基础。物理科学未让量子力学进入的唯一领域是引力和宇宙的大尺度结构。
  量子力学之所以是颠覆性的科学,原因之一就是其中的不确定性原理。而不确定性原理不仅仅适用于量子力学所描述的微观世界,它也适用于我们所生活的宏观世界。那么,不确定性原理对传统科学的颠覆性在哪里呢?
  在传统科学中,宇宙是被观测者,宇宙中的系统(热机)也是被观测者。观测者是脱离于宇宙之外,或者干脆是不存在的。而在不确定性原理中,宇宙是由观测者和被观测者组成的整体,宇宙中的系统(热机)也是由观测者和被观测者组成的整体。既没有独立的观测者,也没有独立的被观测者,观测者和被观测者永远是交错混合在一起的,它们是一体两面。
  比如,牛顿第一定律认为:一切物体在没有受到力的作用时,总保持静止状态或匀速直线运动状态。物体的这种性质叫惯性,第一定律也叫惯性定律,因为它只适用于惯性参照系。在惯性参照系里没有观测者,一切物体都是被观测者。既然没有观测者,那么被观测者的运动情况是如何被观测的?能否引入一个观测者呢?不可以。因为如果引入观测者的话,根据牛顿提出的万有引力定律,观测者与被观测者之间就会有引力,就不存在第一定律成立的前提条件——惯性参照系。所以,在牛顿力学中,如果引入观测者,就会破坏牛顿力学的前提条件——惯性参照系;如果不引入观测者,又无法解决物体的惯性运动是如何观测的问题。
  又比如,热力学第零定律认为:如果两个热力学系统中的每一个都与第三个热力学系统处于热平衡,那么它们也必定处于热平衡。这里同样也没有观测者,3个热力学系统(热机)都是被观测者。那么,是谁观测到它们处于热平衡呢?能否引入一个观测者呢?如果引入一个观测者——第4个热机的话,问题就来了。因为第4个热机一定不能与前3个热机处于热平衡,如果处于热平衡的话,它就无法观测到前3个热机之间可能的热量传递。既然第4个热机与前3个热机不处于热平衡,那么也就意味着前3个热机都不处于热平衡。所以,在热力学中,如果引入观测者,就会破坏热力学的前提条件——热平衡;如果不引入观测者,又无法解决热平衡是如何观测的问题。
  可见,传统科学中只有被观测者却没有观测者,这是不完备的、是自相矛盾的,是一个严重缺陷。而不确定性原理正是对这一问题的挑战。
  在哲学中,被观测者又称为客观或物质,观测者又称为主观或意识。哲学分为唯物主义和唯心主义。唯物主义认为:世界的本质是物质,世界上先有物质后有意识,物质决定意识,意识是物质的反映(物质第一性,意识第二性)。唯心主义则认为:世界的本质是意识,不是物质决定意识,而是意识决定物质(意识第一性,物质第二性)。
  而不确定性原理则告诉我们:唯物主义和唯心主义都是片面的,物质和意识是不可分割的整体,因而也就不存在谁先谁后谁决定谁的问题。
  也就是说,不确定性原理不仅改变了科学,也改变了哲学,改变了我们眼中的整个世界。这是一个划时代的巨大进步,它体现在我们生活中的方方面面。
  比如,我在2000年时的工资是2000元,房价也是2000元,相当于1个月的工资能买1平米。我到2008年时的工资涨到了8000元,这时1个月工资能买几平米呢?从传统科学(或者说决定论、唯物主义)的角度计算,8000/2000=4平米。但是,从不确定性原理的角度计算,又不是这样,因为工资和房价是相互关联的整体,工资会变房价一定也会变。事实情况是:2008年的房价涨到了16000元,因此8000/16000=0.5平米。
  或许你会反驳:这不能说明决定论不对,这只能说明算法中没考虑到房价因素。如果把房价因素考虑进去,就能得到准确的结果。
  那么好,我们把房价考虑进去:我到2008年时的工资涨到了8000元,房价涨到了16000元,是否就意味着1个月工资能买0.5平米了呢?还是不对。因为2000年的时候我单身,2008年的时候我娶妻生子了,开销更大,所以1个月工资连0.5平米都买不到。
  或许你又会反驳:这也不能说明决定论不对,这只能说明算法中没考虑到家庭因素。如果把家庭因素考虑进去,就能得到准确的结果。
  决定论和不确定性原理的区别就在这里:决定论认为:一切都能准确地计算,只要你能找到所有变量,建立正确的算法。而不确定性原理则从根本上否认了这一点,它认为:找到所有的变量是不可能的,绝对正确的算法也是不存在的,所以,万事万物都是不能完全准确计算的,一切都只是概率而已。
  类似的例子不胜枚举。软件开发之前,无论制订多么详细的计划,软件开发都不会完全按照计划走,必须经常调整计划,否则就会差得离谱。三峡大坝兴建之前专家们经过严格的计算和论证,得出的结论是大坝不会对气候产生影响。如今长江流域连年干旱,专家们经过重新计算,又得出了新的结论:大坝会对小范围局部气候有影响。
  需要注意的是,不确定性原理实际上是涵盖了传统科学的决定论,而不是与之唱对台戏。不确定性原理认为事物不能完全准确地计算,并不等于事物完全不能准确地计算。在某些局部领域是可以较准确计算的,例如两个相互环绕的星球的轨道(三个星球就不行了),例如短期天气预报(中长期就不行了)等。
  那么,观测和计算的本质到底是什么呢?
  在牛顿力学中,观测就是力的相互作用,即动能与势能的相互转化;在热力学中,观测是热能的传输以及热能与机械能的相互转化。力的作用是相互的,热能的传输也是相互的,这就说明:观测也是相互的。热机A观测热机B的同时,热机B也在观测热机A。
  另一方面,观测和计算的过程是:输入知识+算法函数=输出知识。
  所以,观测和计算的本质是一样的,就是消耗低级能量(知识)产生熵和高级能量(知识)。可以认为电脑是与发动机一样的热机,同样也可以认为发动机是与电脑一样的计算机。地球、人类、巨脑、宇宙都是热机兼计算机。
1.5 哥德尔不完备定理
  结构是能量的另一面,是宇宙演化的自然产物。结构处于不断的升级进化之中。
  从物理的角度来看,结构是物质结构。从计算机的角度来看,结构又可以理解为数据结构。在计算机里面有以下公式:程序=算法+数据结构。
  数据结构不是物质结构之上的、对立的或者平行的东西,数据结构就是对物质和世界的描述,它们是一体两面。符合逻辑的、符合规律的、符合现实世界的数据结构才有意义。
  数据结构的基础是计算机学,计算机学的基础是数学,数学的基础是集合论。
  以下摘自百度百科:
   集合论是研究集合(由一堆抽象物件构成的整体)的数学理论,包含集合、元素和成员关系等最基本数学概念。在大多数现代数学的公式化中,集合论提供了要如何描述数学物件的语言。集合论和逻辑与一阶逻辑共同构成了数学的公理化基础,以未定义的“集合”与“集合成员”等术语来形式化地建构数学物件。在朴素集合论中,集合是被当做一堆物件构成的整体之类的自证概念。在公理化集合论中,集合和集合成员并不直接被定义,而是先规范可以描述其性质的一些公理。在此一想法之下,集合和集合成员是有如在欧式几何中的点和线,而不被直接定义。
   按现代数学观点,数学各分支的研究对象或者本身是带有某种特定结构的集合(如群、环、拓扑空间),或者是可以通过集合来定义的(如自然数、实数、函数)。从这个意义上说,集合论可以说是整个现代数学的基础。
   1874年,德国数学家康托尔创立了集合论,很快渗透到大部分数学分支,成为它们的基础。到19世纪末,全部数学几乎都建立在集合论的基础之上了。就在这时,集合论中接连出现了一些自相矛盾的结果,特别是1902年罗素提出的理发师悖论,它极为简单、明确、通俗,而且所涉及的只是集合论中最基本的东西。所以,罗素悖论一提出就在当时的数学界与逻辑学界内引起了极大震动。于是,数学的基础被动摇了,这就是所谓的第三次数学危机。
   理发师悖论:在某个城市中有一位理发师,他的广告词是这样写的:“本人的理发技艺十分高超,誉满全城。我将为本城所有不给自己刮脸的人刮脸,我也只给这些人刮脸。我对各位表示热诚欢迎!”来找他刮脸的人络绎不绝,自然都是那些不给自己刮脸的人。可是,有一天,这位理发师从镜子里看见自己的胡子长了,他本能地抓起了剃刀,你们看他能不能给他自己刮脸呢?如果他不给自己刮脸,他就属于“不给自己刮脸的人”,他就要给自己刮脸,而如果他给自己刮脸呢?他又属于“给自己刮脸的人”,他就不该给自己刮脸。
   从集合的观点来看理发师悖论:如果把每个人看成一个集合,这个集合的元素被定义成这个人刮脸的对象。那么,理发师宣称,他的元素,都是城里不属于自身的那些集合,并且城里所有不属于自身的集合都属于他。那么他是否属于他自己?
   集合论的出现,标志着数学的诞生。有了集合论,人们就没必要(也不能)发明更广层次的理论了。就在数学家踌躇满志的时候,集合论中出现了悖论。康托尔自己就发现了一个(包含一切集合的集合是否存在?),更严重的是罗素悖论,其中也出现了以自己为元素的集合。两个悖论搅得数学王国不得安宁,史称“第三次数学危机”。后来这种定义被公理排斥掉了,数学王国又恢复了平静。不过很快,人们就意识到,这不过是“虚假的繁荣”。
   20世纪20年代,在集合论不断发展的基础上,大数学家希尔伯特向全世界的数学家抛出了个宏伟计划,其大意是建立一组公理体系,使一切数学命题原则上都可由此经有限步推定真伪,这叫做公理体系的“完备性”;希尔伯特还要求公理体系保持“独立性”(即所有公理都是互相独立的,以保持公理系统最简洁)和“无矛盾性”(即相容性,公理和公理之间不能是自相矛盾的)。
   值得指出的是,希尔伯特所说的公理不是我们通常认为的公理,而是经过了彻底的形式化。他们存在于一门叫做元数学的分支中。元数学与一般数学理论的关系有点像计算机中应用程序和普通文件的关系。
   希尔伯特是个乐观主义者,他的计划也确实有一定的进展,几乎全世界的数学家都乐观地看着数学大厦即将竣工。正当一切都越来越明朗之际,突然一声晴天霹雳。1931年,在希尔伯特提出计划不到3年,年轻的哥德尔就使希尔伯特的梦想变成了令人沮丧的噩梦。哥德尔证明:任何无矛盾的公理体系,只要包含初等算术的陈述,则必定存在一个不可判定命题,用这组公理不能判定其真假。也就是说,“无矛盾”和“完备”是不能同时满足的!这便是闻名于世的哥德尔不完备定理。
   哥德尔定理包括两条定理:
   第一条定理:任意一个包含算术系统在内的形式系统中,都存在一个命题,它在这个系统中既不能被证明也不能被否定。
   第二条定理:任意一个包含算术系统的形式系统自身不能证明它本身的无矛盾性。
   哥德尔不完备定理一举粉碎了数学家两千年来的信念。他告诉我们,真与可证是两个概念。可证的一定是真的,但真的不一定可证。某种意义上,悖论的阴影将永远伴随着我们。无怪乎大数学家外尔发出这样的感叹:“上帝是存在的,因为数学无疑是相容的;魔鬼也是存在的,因为我们不能证明这种相容性。”
   但是哥德尔不完备定理的影响远远超出了数学的范围。它不仅使数学、逻辑学发生革命性的变化,引发了许多富有挑战性的问题,而且还涉及哲学、语言学和计算机科学,甚至宇宙学。2002年8月17日,著名宇宙学家霍金在北京举行的国际弦理论会议上发表了题为《哥德尔与M理论》的报告,认为建立一个单一的描述宇宙的大统一理论是不太可能的,这一推测也正是基于哥德尔不完备定理。
  在现在十分热门的人工智能领域,哥德尔不完备定理是否适用也成为了人们议论的焦点。1961年,牛津大学的哲学家卢卡斯提出,根据哥德尔不完备定理,机器不可能具有人的心智。他的观点激起了很多人反对。他们认为,哥德尔不完备定理与机器有无心智其实没有关系,但哥德尔不完备定理对人的限制,同样也适用于机器倒是事实。
  集合论在数学中的地位,类似于牛顿力学在物理学中的地位。在牛顿力学中一切物体被简化成质点,物体之间的相互作用称为力。在集合论中一切物体被简化成集合和元素,物体之间的相互作用称为关系。歌德尔不完备定理对集合论的颠覆,类似于不确定性原理对牛顿力学的颠覆。牛顿力学认为一切都是可以准确观测、准确计算的,而不确定性原理认为一切都是不能完全准确观测、准确计算的。集合论认为一切都属于某个集合,而歌德尔不完备定理认为必定有某个东西不属于所有集合。
  集合论对世界的简化,使得它能解决一部分问题,但不能解决另一部分问题,比如罗素悖论。一开始人们以为罗素悖论只是世界的例外、Bug、悖论而已,可以简单地排除掉。但歌德尔不完备定理用集合论本身经过严格的证明告诉我们:集合论不能解决罗素悖论,不是因为世界出现了例外、Bug或悖论,而是因为集合论本身不完备,集合论永远也无法排除某些悖论。
  与牛顿力学类似,集合论的世界观是一个静态的世界观,在集合论中没有时间,或者说时间与集合没有关系。集合论认为,所有人可以分为2个集合:给自己刮脸的人和不给自己刮脸的人。这似乎是对的,但实际是错的,是不符合真实世界的。在真实世界中,是有时间概念的,而且时间是与集合紧密联系的。如果我们把时间和集合作为2个维度,画一个二维图,就会得到比集合论的一维世界观更真实的二维世界观。
  在集合论的一维世界观中,每个人都是一个点,这个点或者属于给自己刮脸的人的集合,或者属于不给自己刮脸的人的集合。而在真实的二维世界观中,每个人不是一个点而是一条由一系列点组成的曲线,他可能永远都不给自己刮脸,也有可能今天不给自己刮脸,明天给自己刮脸,或者这一小时不给自己刮脸,下一小时给自己刮脸。但他不可能每年365天每天24小时时时刻刻都给自己刮脸。
  也就是说,永远不给自己刮脸的人是存在的,有时给自己刮脸有时不给自己刮脸的人也是存在的,但永远都在给自己刮脸的人是不存在的。这一点只有在由时间维和集合维组成的二维世界中才能看到,在去掉了时间维只有集合维的一维世界中是看不到的。集合论之所以会产生悖论,不是因为推理的结果出了问题,而是它的出发点就有问题。集合论认为存在两种人:给自己刮脸的人和不给自己刮脸的人,这就好像盲人摸象,摸到象耳朵的盲人认为大象是蒲扇形的,摸到象腿的盲人认为大象是柱子形的,加起来就是两种大象:蒲扇形大象和柱子形大象。

  古希腊哲学家赫拉克利特说过:人不能两次踏入同一条河流。他认为万物皆动、万物皆流,就是说所有事物都不是一个点,而是一条随时间变化的曲线。赫拉克利特是从包含时间维的世界观来看待事物的,如果从不包含时间维的世界观,也就是集合论本身来看,就是歌德尔不完备定理:任何一个公理体系,或者是无矛盾的,或者是完备的,不可能既是无矛盾的又是完备的。这两种说法虽然相差很大,但本质是一样的。
  什么是公理体系呢?公理体系其实就是事物的静态结构,垂直于时间维的静态切片。某一时刻的地球、人、汽车、电脑、巨脑都是公理体系。也就是说,地球、人、汽车、电脑、巨脑这些自然产物及人造物,或者是矛盾的,或者是不完备的,不可能既不矛盾又完备。

2013-03-30 00:51:15
  

1.6 逻辑学
  逻辑学是一门重要的但却被忽视的基础学科。我上学时,从小学到大学都没有逻辑学课程,但在诸如数学、语文、马哲、计算机等课程中却零散分布着一些支离破碎的逻辑学理论。正如维基百科中所述:
  一百年前上学的孩子被教授了一种可用形式的形式逻辑,而今天–在信息时代–他们却没有被教授任何东西。
  辩证逻辑(Dialectical Logic),是“矛盾逻辑”的同义词。与之相对应的反义词,是“无矛盾逻辑”,或者“相容逻辑”,也常常被称作“形式逻辑”,或者简称为“逻辑”(即亚里士多德逻辑)。
  在已知的散布于世界各地的古代农业文明中,这种相互对立的矛盾逻辑和相容逻辑,常常被共容互渗在同一个思想体系内。比如,古代中国的“易经”,“道德经”,“孙子兵法”;古代印度的“奥义书”,“华严经”等等,以及古希腊普罗泰戈拉和高尔吉亚所代表的诡辩派。可是,在古希腊,无矛盾的亚里士多德逻辑学取得了一边倒的巨大优势,使得与之对立的普罗泰戈拉的矛盾逻辑学说就失传了,而且他的著作也被随之焚烧掉了。由于缺乏有力的历史依据,使得现在无法确认希腊人是否已经创造了完整体系的“古代辩证逻辑学”这一学科。古代中国的“易经”,“道德经”,古代印度的“奥义书”,“华严经”,皆可被视为完整体系的“古代辩证逻辑学”之一。
  黑格尔逻辑学是近代矛盾逻辑的代表性学说,他是近代辩证逻辑学之父,“近代辩证逻辑学”这一完整体系的学科,以独立的分册形式被明确地列入“黑格尔哲学全书”中。他和亚里士多德逻辑学的最大不同是,对于逻辑矛盾,不是简单地肯定一方而彻底否定对立的一方。比如,他在如何解决“生”和“死”这对矛盾双方的时候,不像亚里士多德逻辑那样,在任何情况下,只有两种可能的存在性,要么是“生”;要么是“死”。而是认为“生”和“死”同时存在同一体中,并且“生”和“死”之间的关系,决不是非此即彼;或者非彼即此这么简单,而是“在生的同时就埋下了死亡的种子”(黑格尔语)。他吸取了康德的“新三段论”的历史逻辑学,认为处于最先自在阶段的是“死”(即“未生”);而处于自为阶段的才是“生”(即“不死”);“生”和“死”这对矛盾的现实调和则是处于最终的“自在自为”的阶段,即现实中任何一个活的生命物种,这时“生”和“死”这对逻辑矛盾,最终在这一阶段被和解在一个活的物种之中。类似地,“无”和“有”这对矛盾双方,也是从最初“自在阶段”的“无”;被其后的“自为阶段”的“有”所否定;继而再被“自在自为阶段”的“无有”所否定,完成了整个“无”和“有”的矛盾终结过程。
  黑格尔三段论由三个部分组成:正方、反方和合方。正方是逻辑默认的前提;反方是逻辑对立的前提;合方则是在逻辑上,从两个相互对立的矛盾前提中扬弃而来的。
  1.“自在”(肯定) 【矛单方/正命题】
  2.“自为”(否肯定) 【盾单方/反命题】
  3.“自在自为”(否否肯定) 【矛盾双方统一体/合命题】
  也可为述为:“自在”(肯定)-“自为”(否肯定)-“自在自为”(否否肯定)。
  从每一个阶段到另外一个阶段的变化,不是间断性的突变,都是渐变的过程,即他所称的“逐渐的量变累积,才引发了瞬间飞跃的质变”过程。黑格尔从中抽象出了辩证逻辑的三大逻辑公理是:描述逻辑矛盾的“对立统一律”;描述逻辑矛盾相互转化过程中跃变的“质量互变律”;描述对立双方得到最终化解的“否否肯定律”。这三大辩证逻辑公理,都清楚地被表述在他的“大逻辑”著作或“小逻辑”著作中。
  逻辑学的第一级分类,就是把无矛盾逻辑学和矛盾逻辑学看作是逻辑学的子逻辑学。
  逻辑学=无矛盾逻辑学∪矛盾逻辑学=相容逻辑学∪辩证逻辑学=状态逻辑学∪过程逻辑学=重言式逻辑学∪非重言式逻辑学
  相容逻辑学的推理是不允许出现任何逻辑矛盾;而辩证逻辑学的推理是化解逻辑矛盾。相容逻辑学具有笛卡尔所指出的那种明显不足,即它至多只是把已知的知识重新逻辑整理之后再重复说一遍,没有演绎出史无前例的新知识。辩证逻辑学,康德将它称作为“任何一种能够作为科学出现的未来形而上学导论”。它必须要立足于已有的旧知识,不是演绎而是能够生长出前所未有的、不重复的新知识。康德的这种历史逻辑学是一种可以创新的逻辑学。所以“相容逻辑学”也可以被称作为“状态逻辑学”;而“辩证逻辑学”则可以以被称作为“过程逻辑学”。综合上述可知,其“相容逻辑学”可以被称作为“重言式逻辑学”;而“辩证逻辑学”可以被称作为“非重言式逻辑学”。它们二者共同构成了“逻辑学”最重大的两大分支。
  全部自然科学的第一级划分出的两大领域,依次分别是揭示自然状态的非生命科学和揭示自然过程的生命科学。不难发现“无矛盾逻辑学”能够广泛地应用在“非生命科学”中;而“矛盾逻辑学”能够广泛地应用在“生命科学”中。即使是非生命自然界的演化,由康德第一个提出来不同自然层次的各种“自然演化假说”:星球演化学,星系演化学,宇宙演化学,以及受到康德这种历史逻辑学深刻影响的达尔文,提出与之相仿的生命物种演化学说,以及20世纪的地球生态圈的演化学说,无一不和这种矛盾逻辑学紧密相关。
  物理学家玻尔创立了“旧量子力学”。他为了理解原子世界中的电子的“波粒二象性”这种匪夷所思的现象,继而率先提出了“互补原理”,以此来半定量地计算原子物理学中的电子运动规律。其次,美国加利福利亚州立大学伯克利分校的理论物理学教授卡普拉,当然熟知玻尔的思想,他写了一本著作“物理学之道——现代物理学和东方神秘主义”,补充了玻尔的思想体系,把古代印度的奥义书的思想也一并纳入进来,指出深受辩证逻辑学影响的盖尔曼的强子结构假说就是出自印度的“八正道”的启发。继而让人们可以从更加广泛的一个视角来进一步认识和探索自然界的真理。
  “正题的粒子”→“反题的波”→“合题的波-粒二象性”,定域性的“粒子”和非定域性的“波”这对矛盾,最终被扬弃在既有定域性又有非定域性的“波-粒二象性”中,再现了黑格尔的辩证逻辑规律。
  弗洛伊德所创立的精神分析学,不仅是来自对精神病患者的长期的临床经验的理论总结,更是他在理论上对一个人完整一生的高度概括和总结。正是他详细考察和研究一个人从出生到死亡的完整人生,才使得他从一个独立的精神心里领域,又再度重复构造出了康德的历史辩证逻辑框架。他认为任何一个人的人格发展的历史过程,或者任何完整人生的精神心理发展的历史过程,必定要先后经历三个不同的重要阶段:即从最初母亲子宫内腹中的胎儿,到刚刚哇哇坠地哭叫的哺乳期的婴儿,处于还未接受超我强行同化压迫的“本我(id)”阶段;这时婴儿只会发出啼哭的声音,是纯粹的原我的。很快就进入被“超我(superego)”阶段强制同化和压迫的阶段,首先开始被母亲这个超我对其灌输咿呀学语,进入否定孩子的本我无语言的这种原我状态,这种情形将一直不断会续下去,一般女婴需要经过长达一年、男婴需要经过将近两年的这种超我的压迫后,才能掌握最初一些最简单的语言,开始会和母亲,以及周围的人对话了。父母这种超我的压迫状态,随后就快就被幼稚园和学校这种新的更强大的超我的压迫所取代。一直持续到了初中阶段,长期以来一直被超我所否定的本我,才逐渐醒悟过来,开始反抗家长和学校这种超我的压迫,即家长和教师所责斥的“不听话”或则“逆反行为”。青少年这种对超我的否定,就是正式迈入“自我(ego)”阶段的明显标志,不再事事服从,在言行上均臣于服超我压迫的指令,也就是俗称的开始“成熟”的阶段了。
  “正题的本我”→“反题的超我”→“合题的自我”,“本我”和“超我”这对矛盾,最终被扬弃在“自我”中,再现了黑格尔的辩证逻辑规律。
  逻辑学基本原理(无矛盾逻辑)
* 同一律,事物只能是其本身。
* 排中律,对于任何事物在一定条件下的判断都要有明确的“是”或“非”,不存在中间状态。
* 充足理由律,任何事物都有其存在的充足理由。人们最容易忽略的就是充足理由律,没有充足理由,整个演绎推理的结论就不牢固。
* 无矛盾律,在同一时刻,某个事物不可能在同一方面既是这样又不是这样。
  逻辑(无矛盾逻辑)中有三种逻辑推理的方式:演绎、归纳和溯因。给定前提、结论和规则,而前提导致结论,则可分别解释如下:
* 演绎用来决定结论。它使用规则和前提来推导出结论。数学家通常使用这种推理。
  举例:"若下雨,则草地会变湿。因为今天下雨了,所以今天草地是湿的。"。
* 归纳用来决定规则。它借由大量的前提和结论所组成的例子来学习规则。科学家通常使用这种推理。
  举例:"每次下雨,草地都是湿的。因此若明天下雨,草地就会变湿。"。
* 溯因用来决定前提。它借由结论和规则来支援前提以解释结论。诊断和侦探通常使用这种推理。
  举例:"若下雨,草地会变湿。因为草地是湿的,所以曾下过雨。"。
  在传统逻辑(无矛盾逻辑)中,三段论(亚里士多德三段论)是在其中一个命题(结论)必然的从另外两个命题(叫做前提)中得出的一种推论。
  三段论由三个部分组成:大前提、小前提和结论,它在逻辑上从大前提和小前提得出来的。大前提是一般性的原则。小前提是一个特殊陈述。在逻辑上,结论是从应用大前提于小前提之上得到的。
  应用这个例子是亚里士多德给出的经典的“Barbara”三段论:
* 如果所有人(M)都是必死的(P),(大前提)
* 并且所有希腊人(S)都是人(M),(小前提)
* 那么所有希腊人(S)都是必死的(P)。(结论)
以下是根据维基百科画的逻辑学的分类图:

1.7 关系代数
  从结构的角度讲,数据大致可分为3大类:结构化数据、非结构化数据、半结构化数据。结构化数据主要是指以数据库形式存储的数据;非结构化数据主要是指以文件形式存储的数据,包括文章、图片、视频等;半结构化数据主要是指以文件形式存储的、但又具有一定的数据库表结构的数据,例如XML。半结构化数据也可以归类于非结构化数据中。
  数据库曾经有网状数据库、层次数据库等。当前的主流数据库是关系数据库,它淘汰了其它数据库,占据了绝大部分的数据库市场,具体产品包括Oracle、SQL Server、DB2等。所谓结构化数据一般指的就是关系数据库。关系数据库之所以大获成功,其原因就在于它有一个坚实的理论基础——关系代数(也称关系模型)。
  不管是非结构化数据还是结构化数据,它们的本质都是对世界的描述,只不过形式不同而已。比如“张三的公司是联想”这样一个知识,它既可以用图形来描述,也可以用语句来描述,还可以用关系表(关系数据库中存储数据的逻辑概念)来描述。用图形和语句描述就是非结构化数据,用关系表描述就是结构化数据。所以说非结构化数据和结构化数据的形式不同但本质相同。

  结构化数据与非结构化数据的区别在于:非结构化数据的形式是自然语言或者自然图形,它难于进行运算(包括数学运算和机器运算)。而结构化数据对非结构化数据的形式做了简化和规范化,使得它易于进行运算。可以认为,非结构化数据是一种数量较大、等级较低的能量和知识,结构化数据是一种数量较小、等级较高的能量和知识。从非结构化数据到结构化数据的转化,是能量等级升高的过程,是数据处理的必经之路。

  在关系数据库中,对结构化数据进行运算的算法,就是关系数据库的核心——关系代数。E.F.Codd之所以被称为关系数据库之父,不是因为他发明了关系数据库,而是因为他发明了关系代数和关系模型。以下摘自维基百科:
  关系代数是一阶逻辑的分支,是闭合于运算下的关系的集合。运算作用于一个或多个关系上来生成一个关系。关系代数是计算机科学的一部分。
  关系代数在1970年 E.F. Codd 发表数据的关系模型之前很少受到注意。Codd 曾是皮尔士选集编辑者 Arthur W. Burks 的博士研究生(皮尔士是美国逻辑学家)。Codd 提议这样一种代数作为数据库查询语言的基础。第一个基于 Codd 的代数的查询语言是 ISBL,许多作者都认同这个先驱的工作展示了一个使 Codd 的想法成为有用语言的方式。商务系统12 是追随 ISBL 先例的短命工业级实力的关系 DBMS。在 1998 年 Chris Date 和 Hugh Darwen 提议了一种叫 Tutorial D 的语言,意图用于教学关系数据库理论,它的查询语言也吸取了 ISBL 的想法。Rel 是 Tutorial D 的一个实现。即使 SQL 的查询语言也松散的基于了关系代数,尽管 SQL 中的操作数(表)不完全是关系,很多有用的关于关系代数的理论在 SQL 对应者中不成立。
  因为关系被解释为某个谓词的外延,关系代数的每个运算在谓词演算中都有对应者。例如,自然连接是逻辑AND()的对应者。如果关系 R 和 S 分别表示谓词 p1 和 p2 的外延,则 R 和 S 的自然连接(R S)是表示谓词 p1 p2 的外延的关系。
  认识到 Codd 的代数事实上关于一阶逻辑不完备是很重要的。实现它会引起不可逾越的特定计算困难。为了克服这些困难,他限制操作数为有限关系,并提议了对否定(NOT)和析取(OR)的有限支持。类似的限制在很多其他基于逻辑的计算机语言中也能见到。Codd 定义术语关系完备性来称呼一个语言除了他提议的限制之外关于一阶逻辑是完备的。在实践中这些限制对他的关系代数用于数据库用途的适用性没有不利作用。
  如同任何代数,一些运算是原始的,而可以通过原始运算来定义的另一些运算是导出的。尽管逻辑中的 AND, OR 和 NOT 的选取,某种程度上是任意性的是众所周知的,Codd 对他的代数作了类似的任意选取。
  Codd 的代数的六个原始运算是“选择”、“投影”、笛卡尔积(也叫做“叉积”或“交叉连接”)、并集、差集和“重命名”。(实际上,Codd 忽略了重命名,而 ISBL 的发明者显著的包括了它)。这六个运算在省略其中任何一个都要损失表达能力的意义上是基本的。已经依据这六个原始运算定义了很多其他运算。其中最重要的是交集、除法和自然连接。事实上 ISBL 显著的用自然连接替代了笛卡尔积,它是笛卡尔积的退化情况。
  总之,关系代数的运算有与域关系演算或元组关系演算同样的表达能力。但是出于前面介绍中给出的原因,关系代数有严格弱于没有函数符号的一阶谓词演算的表达能力。关系代数实际上对应于一阶逻辑的子集,即没有递归和否定的Horn子句。
  关系模型的基本假定是所有数据都表示为数学上的关系,就是说n个集合的笛卡儿积的一个子集,有关这种数据的推理通过二值(就是说没有NULL)的谓词逻辑来进行, 这意味着对每个命题都没有两种可能的求值: 要么是真要么是假。数据通过关系演算和关系代数的一种方式来操作。关系模型是采用二维表格结构表达实体类型及实体间联系的数据模型.
  关系模型允许设计者通过数据库规范化的提炼,去建立一个信息的一致性的模型。访问计划和其他实现与操作细节由DBMS引擎来处理,而不应该反映在逻辑模型中。这与SQL DBMS普遍的实践是对立的,在它们那里性能调整经常需要改变逻辑模型。
  基本的关系建造块是域或者叫数据类型。元组是属性的有序多重集(multiset),属性是域和值的有序对。关系变量(relvar)是域和名字的有序对(序偶)的集合,它充当关系的表头(header)。关系是元组的集合。尽管这些关系概念是数学上的定义的,它们可以宽松的映射到传统数据库概念上。表是关系的公认的可视表示;元组类似于行的概念。
  关系模型的基本原理是信息原理:所有信息都表示为关系中的数据值。所以,关系变量在设计时刻是相互无关联的;反而,设计者在多个关系变量中使用相同的域,如果一个属性依赖于另一个属性,则通过参照完整性来强制这种依赖性。
  其他模型还有层次模型和网状模型。使用这些旧体系的一些系统现在仍在一些数据中心中使用,那里有高数据容量需求或者现存系统复杂得使迁移到采用关系模型的系统花费巨大;还要注意新的面向对象数据库,尽管它们中很多都是DBMS构造工具,而不是严格的DBMS。
  关系模型是第一个形式化的数据库模型。在它被定义之后,非形式化模型被用做描述描述层次数据库(层次模型)和网状数据库(网状模型)。层次和网状数据在关系数据库之前就存在了,但是只在关系模型被定义之后才作为模型来描述,用来建立比较的基础。
  关系模型是由埃德加·科德博士作为数据的一般模型而发明的,随后由克里斯多佛·戴特(Christopher J. Date)和休·达温(Hugh Darwen)等人维护和开发。在第三次宣言(1995年)中他们展示了如何向关系模型扩展上面向对象特征而不用妥协它的基本原理。
  SQL最初作为关系数据库的标准语言而提出,而在实际上总是违背它。所以SQL DBMS实际上不是真正的RDBMS,并且当前ISO SQL标准不提及关系模型或者使用关系术语或概念。
  已经有很多尝试去生成埃德加·科德、克里斯多佛·戴特、休·达温等人开发的关系数据库模型的真正实现。但都没有获得流行性成功。Rel是其中最新的尝试之一。SQL使用概念"表"、"列"和"行"来替代"关系变量"、"属性"和"元组"。
  科德自己提议了关系模型的一个三值逻辑版本,而且四值逻辑版本也被提议了,用来处理缺失信息。但是这些都未被实现,大概是由于顾及到了复杂性。SQL NULL意图成为三值逻辑系统的一部分,但是由于在标准和它的实现中的逻辑上的错误而没有达到目标。
  数据库规范化通常在设计关系数据库时进行,用来增进数据库设计的逻辑上的一致性和事务处理性能。
  有两种常用的模式图系统来辅助关系模型的可视表示: 实体-联系模式图(实体关系图),和美国空军在ERD基础上建立的IDEF1X方法中所使用的关联IDEF模式图。
  关系代数在知识的升级进化方面所做的贡献主要有两点:1。关系代数中的数据库规范化方法能把非结构化数据转化为结构化数据;2。关系代数包含了一系列能输入关系(结构化数据,表)并输出关系(结构化数据,表)的算法。其中的第1点在SQL(结构化查询语言)中称为DDL(数据定义语言),第2点在SQL中称为DQL(数据查询语言)和DML(数据操作语言)。数据库规范化或者说数据定义的过程主要由人工来完成,而数据查询和数据操作的过程可以由机器自动完成。
  什么是关系代数的算法呢?例如:姓名与公司的关系是第1张表,公司与地址的关系是第2张表,这两张表进行内连接运算,就能得到第3张表:姓名与地址的关系表。第3张表既不同于第1张表也不同于第2张表,它是新生成的表,是基于已有知识产生的新知识。内连接就是产生新知识的关系代数的算法。

  关系代数的算法输入和输出的都是关系表,这就可以把多个算法和关系表嵌套组合起来,不断产生更高等级的新知识。

  关系代数也有其局限性,其根源就是哥德尔不完备定理。
  非结构化数据尽管比结构化数据低级,但却更原始、更真实。这个真实性体现在:非结构化数据中既有一致性,又有矛盾性。在把非结构化数据转化为结构化数据的过程中,往往会人为地排除矛盾性的一面,保留一致性的一面。根据哥德尔不完备定理,公理体系的一致性与完备性不可兼得。结构化数据和非结构化数据都是公理体系,因此结构化数据必定是不完备的。而非结构化数据因为有矛盾性,所以可以比结构化数据更完备。
  非结构化数据其实只有一份,因为所有的非结构化数据都可以简单地合到一起,各个数据之间会产生矛盾,但这没有关系,因为每个非结构化数据原本就是矛盾的。而结构化数据则有多份,它们不能简单地合到一起,因为每个结构化数据都是一致的,它们合到一起就会产生矛盾,就破坏了一致性,就不再是结构化数据了。
  所以,非结构化数据只有一个而结构化数据有多个,每个结构化数据都是非结构化数据的一个一致性的子集,各个结构化数据之间被矛盾性相互隔开。

  当关系数据库中的数据来源少、时间段短、数据量小时,可以比较容易地实现一致性。随着数据来源的增多、时间段的延长、数据量的增大,关系数据库逐步上升到数据仓库,这时就越来越难保持一致性。
  举例来说:张三在一个名叫联想的小公司上班,公司成立不久,有几十人,公司的管理信息存储在一个小型的关系数据库里。因为总共才二三十人,没有重名,所以根据员工姓名就可以区别出每个人,也就是说可以用员工姓名作为员工表的主键。
  随着公司的发展,某一天又进来一个叫张三的员工,这时就不能用员工姓名作为员工表主键了,可以改用员工身份证号。但实际上身份证号也有问题,因为第一:身份证号也有重复的,不同的两个人共用同一个身份证号,这种情况虽然很少,但确实存在。第二:同一个人可能会两次进入同一家公司,中间有一段时间离开公司了。每次进入这家公司都有相应的入职日期、岗位、薪资、离职日期等信息,不能把两次入职视作是一次。所以,只能用一个没有任何实际意义的、永不重复的员工编号作为员工表的主键。
  员工编号只是使得员工表有了主键、数据库从形式上符合规范化的要求而已,它其实并不能真正解决数据重复、或者说数据不一致、矛盾的问题。比如公司经理对助理说:“你把张三叫来。”助理打开管理系统,输入张三的姓名查他的电话,结果返回2条记录,对应2个叫张三的员工。助理无法确定经理要找的张三是哪一个张三,因此还要与经理进一步确认,从2条记录中选出1条,人工地消除矛盾。不管是经理还是助理,他们只知道员工的姓名、性别、大致年龄、部门等公共信息,不可能知道每个员工的员工编号这样的数据库内部信息。
  所以说,数据库越大,越难以保持一致性。一致性和完备性本身就是一对矛盾,要想保持一致性数据库就只能做得很小,数据库要想做大就必须容纳而不是排除矛盾性。
  需要注意的是:数据库容纳了矛盾性,并不等于把结构化数据退回到非结构化数据,而是在只保留一致性的结构化数据基础上的升级,最终实现的是既有一致性又有矛盾性的结构化数据。

 

2013-03-30 00:51:43
  

1.8 演绎推理和归纳推理
  关系代数试图排除矛盾性却不能排除,这个问题在数据量大的时候尤为明显。这是它的第一个局限。对此应该采取的解决方案是:容纳矛盾性。
  关系代数的第二个局限是:它是一阶逻辑的分支,它只能实现演绎推理,不能实现归纳推理。以下参见维基百科:
  一阶逻辑是使用于数学、哲学、语言学及计算机科学中的一种形式系统。
  过去一百多年,一阶逻辑出现过许多种名称,包括:一阶谓词演算、低阶谓词演算、量化理论或谓词逻辑(一个较不精确的用词)。一阶逻辑和命题逻辑的不同之处在于,一阶逻辑有使用量化变量。一个一阶逻辑,若具有由一系列量化变量、一个以上有意义的谓词字母及包含了有意义的谓词字母的纯公理所组成的特定论域,即是一个一阶理论。
  一阶逻辑和其他高阶逻辑不同之处在于,高阶逻辑的谓词可以有谓词或函数当做引数,且允许谓词量词或函数量词的(同时或不同时)存在。在一阶逻辑中,谓词通常和集合相关连。在有意义的高阶逻辑中,谓词则会被解释为集合的集合。
  存在许多对一阶逻辑是可靠(所有可证的叙述皆为真)且完备(所有为真的叙述皆可证)的演绎系统。虽然一阶逻辑的逻辑归结只是半可判定性的,但还是有许多用于一阶逻辑上的自动定理证明。一阶逻辑也符合一些使其能通过证明论分析的元逻辑定理,如勒文海姆–斯科伦定理及紧致性定理。
  一阶逻辑是数学基础中很重要的一部份,因为它是公理系统的标准形式逻辑。许多常见的公理系统,如一阶皮亚诺公理和包含策梅洛-弗兰克尔集合论的公理化集合论等,都可以形式化成一阶理论。然而,一阶定理并没有能力去完整描述及范畴性地建构如自然数或实数之类无限的概念。这些结构的公理系统可以由如二阶逻辑之类更强的逻辑来取得。
  在逻辑和数学中,二阶逻辑是一阶逻辑的扩展,一阶逻辑是命题逻辑的扩展。二阶逻辑接着被高阶逻辑和类型论所扩展。
  传统逻辑,也叫做词项逻辑,是关于亚里士多德(公元前384年—前322年)所开创的传统逻辑学的宽松的术语,并有幸的没有经历广泛的改变,直到十九世纪末出现了谓词逻辑。
  亚里士多德提出的逻辑概念成为了支配逻辑学界的理论,这一直要到19世纪才被数理逻辑取代。康德在《纯粹理性批判》中指出亚里士多德的逻辑理论是完全以演绎推理的方式架构而成的。
  在传统的亚里士多德逻辑中,演绎推理(英语:deductive reasoning)是“结论,可从叫做前提的已知事实,“必然的”得出的推理”。如果前提为真,则结论必然为真。这区别于溯因推理和归纳推理,它们的前提可以预测出高概率的结论,但是不确保结论为真。
  “演绎推理”还可以定义为结论在普遍性上不大于前提的推理,或“结论在确定性上,同前提一样”的推理。
  常用的基本论证形式举例:
  1. 肯定前件论式 :如果 p 则 q; p; 所以, q
  2. 否定后件论式 :如果 p 则 q; 非 q; 所以,非 p
  3. 假言三段论式:如果 p 则 q; 如果 q 则 r; 所以,如果 p 则 r
  4. 选言三段论式:要么 p 要么 q; 非 p; 所以, q
  5. 简化论式:p 与 q 为真; 所以,p 为真
  6. 合取式:p 与 q 分别为真; 所以,它们结合起来是真
  7. 增加论式 :p 是真; 所以析取式(p 或 q)为真
  8. 合成论式:如果 p 则 q; 并且如果 p 则 r; 所以,如果 p 是真则 q 与 r 为真
  9. 交换律(1):(p 或 q)等价于(q 或 p)
  10. 交换律(2):(p 与 q)等价于(q 与 p)
  11. 结合律(1):p 或(q 或 r)等价于(p 或 q)或 r
  12. 结合律(2) :p 与(q 与 r)等价于(p 与 q)与 r
  13. 分配律(1):p 与(q 或 r)等价于(p 与 q)或(p 与 r)
  14. 分配律(2):p 或(q 与 r)等价于(p 或 q)与(p 或 r)
  15. 双重否定律:p 等价于非 p 的否定
  16. 换位律:如果 p 则 q 等价于如果非 q 则非 p
  17. 排中律:p 或非 p 是真
归纳推理的发明者是16世纪英国哲学家培根。归纳推理是对演绎推理的补全。
  归纳法或归纳推理(Inductive reasoning),有时叫做归纳逻辑,是论证的前提支持结论但不确保结论的推理过程。它基于对特殊的代表(token)的有限观察,把性质或关系归结到类型;或基于对反复再现的现象的模式(pattern)的有限观察,公式表达规律。例如,使用归纳法在如下特殊的命题中:
* 所有观察到的乌鸦都是黑的。
* 所以所有乌鸦都是黑的。
  这例示了归纳的本质: 从特殊归纳出普遍。结论明显不是确定的。除非我们见过所有的乌鸦 - 我们怎能都知道呢? - 可能还有些罕见的蓝乌鸦或是白乌鸦。
  多数人学习的形式逻辑是演绎的而不是归纳的。一些哲学家声称要建立归纳逻辑的系统,但是对归纳的逻辑是否可能是有争议的。相对于演绎推理,归纳推理达成的结论并非必然与最初的假定有相同的确定程度。例如,所有天鹅都是白色的结论明显是错的,但在殖民于澳大利亚之前在欧洲一直被认为是正确的。归纳论证从来就不是有约束力的但它们可以是有说服力的。归纳推理在演绎上是无效的。(在形式逻辑中的论证是有效的,当且仅当论证的前提为真而结论却为假是不可能的。)
  在归纳法中,总是有很多结论可以合理的关联于特定前提。归纳是开放的;而演绎是封闭的。
  归纳问题的经典哲学处理,意味着为归纳推理找到了正当理由,是苏格兰人大卫·休谟完成的。休谟突出了依据重复经验的模式的我们的日常推理,而不是演绎上的有效论证。比如我们相信面包对我们有益,因为过去一直如此,但是面包将来对我们有害至少是可以想象的。
  休谟说对所有事情都坚持可靠的演绎上的正当有理的人会饿死的。替代激进怀疑论关于所有事物的无所作为,他提倡基于常识的实用怀疑论,这里接受归纳法是必然的。
  二十世纪的开发者很不同的为归纳问题加了外框。胜过选择对将来做什么预测,它可以被看作是选择适合于观察的概念(参见条目蓝绿色)或适合于观测数据点的曲线图。
  归纳法有时被加边框为关于从过去做关于将来的推理,但是在最广泛的意义上它含盖了在已观察的事物的基础上达成对未观察的事物的结论。从现在的证据推论过去(比如考古)也算做归纳法。归纳法也可以跨越空间而不是时间,比如从在我们的星系得出关于整个宇宙的结论,基于本地经济业绩得出关于国家经济政策的结论。
  归纳推理的类型
  普遍化
  普遍化或归纳普遍化,是从关于样本的前提到关于总体的结论的过程。
* 比例为 Q 的样本有性质 A。
* 结论: 比例为 Q 的全体有性质 A。
  前提提供给结论的支持依赖于样本群体中的个体数目可比较于全体中的成员的数目,和样本的随机性。草率普遍化和偏倚样本是与普遍化有关的谬误。
  统计三段论
  统计三段论是从一个普遍化到关于一个个体的结论的过程。
* 比例为 Q 的总体 P 有性质 A。
* 个体 I 是 P 的成员。
* 结论: 个体 I 有性质 A 的概率相当于 Q。
  在前提 1 中比例可以是像 '3/5'、'所有的'或'一些'这样的词。两个 dicto simpliciter 谬论可以出现在统计三段论中。它们是"意外"和"反意外"。
  简单归纳
  简单归纳是从关于一个样本群体到关于另一个个体的结论的过程。
* 全体 P 的比例为 Q 的已知实例有性质 A。
* 个体 I 是 P 的另一个成员。
* 结论: 个体 I 有性质 A 的概率相当于 Q。
  这实际上是普遍化和统计三段论的组合,这里的普遍化的结论也是统计三段论的第一个前提。
  类推论证
  (归纳的)类推是从已知的在两个事物之间的类似性到关于在这两个事物之间公共的一个额外性质的结论的过程:
* 事物 P 类似于事物 Q。
* 事物 P 有性质 A。
* 结论: 事物 Q 有性质 A。
  类推依赖于已知共享的性质(类似性)蕴涵 A 也是共享的性质的推论。前提提供给结论的支持依赖于相干性和在 P 和 Q 的类似性。
  因果推论
  因果推论基于效果发生的条件得出关于因果关联的结论。
  关于两个事物的相关性的前提可以指示在它们之间的因果联系,但是必须巩固上额外的因素来建立因果联系的精确形式。
  预测
  预测从过去的样本得出关于将来的个体的结论。
* 群体 G 的比例为 Q 的观测过的成员有性质 A。
* 群体 G 的下一个观测的成员有性质 A 的概率相当于 Q。
  典据论证
  引经据典论证基于来源说真命题的比例得出关于一个陈述的真实性的结论。它与推测有相同的形式。
* 权威 A 的比例为 Q 的主张是对的。
* 权威 A 的这个主张是对的概率相当于 Q。
  例子:
* 来自关于逻辑的网站的所有的评述都是对的。
* 这个信息来自关于逻辑的网站。
* 所以,这个信息(可能)是对的。
  贝叶斯推理
  归纳逻辑的候选系统中,最有影响的是贝叶斯主义,它使用概率论作为归纳的框架。贝叶斯定理被用于在给定某些证据时计算你对一个假设的信任的强度应当改变多少。
  关于从何得知最初的可信度是有争议的。客观贝叶斯主义者寻求对于假设为正确的概率的客观评估,而因此不能幸免于客观主义的哲学批判。主观贝叶斯主义者坚持表示主观可信度的先验概率,但是贝叶斯定理的反复应用导致了同后验概率的高度一致性。因此它们不能为在冲突的假设间做出选择提供客观标准。可以用这种理论理性的证明对某些假设的相信是正当的,但是要付出拒绝客观主义的代价。比如,不能使用这种方案在冲突的科学范例之间做客观决定。Edwin Jaynes 是率直的物理学家和贝叶斯主义者,他声称'主观'因素在所有推理中都存在(比如为演绎推理选择公理,选择最初的可信度或先验概率,选择可能度),并为来自定性知识的事物指派概率提出一系列的原理。最大熵(不关心原理的推广)和变换群组是他建立的两个结果工具;二者都尝试通过把知识比如条件的对称性转换成对概率分布的明确选择,减轻在特定条件下概率指派的主观性。
  贝叶斯主义者感觉有资格称它们的系统为归纳逻辑,由于Cox定理可以从在归纳推理系统上的约束推导出概率。
  实际例子
  一件由A和B同时发生才能确立的事件C,明显地你会观察到:事件C成立则B必定发生。但绝对不能贸然将结论误解为"只要B发生则事件C一定发生"(而应该是要由A和B同时发生才能确定C的产生)。而且你也不能擅自扩充成为"只要C事件不发生则事件B一定没有发生",同样的关键点仍旧是"当A不成立时,C就一定不成立"而B是否成立就不一定也无从得知了。
  事实上你只能由现有实验结果推论,尤其是生物体的实验更不易有完美相同条件的控制组,及顾及全方面的对照组,你也无从判定究竟一共要有几个因素加起来才会导致你在观察的结果。更常见的情况是,你因为总是同时观察到了C跟D现象,就因此加以归纳为A+B会导致C+D,或是A+B+D会导致C的结论。在你做更进一步的实验来确认你的假设之前,你都无法排除这些不确定性,更夸张的就是C跟D说不定根本就没有关系,或是更复杂的要有D+E才有A,又要同时有B,才有C这个结果。所以,在科学实验中,演绎法才是比较不容易被质疑的一种判断法,但是也不一定保证这样做出的结论就是对的。
  贝叶斯定理(Bayes' theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。
  通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。
  作为一个规范的原理,贝叶斯定理对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中,概率如何被赋值,有着不同的看法: 频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯定理。
  贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。
  
  其中P(A|B)是在B发生的情况下A发生的可能性。
  在贝叶斯定理中,每个名词都有约定俗成的名称:
* P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
* P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
* P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
* P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant).
  按这些术语,Bayes定理可表述为:
  后验概率 = (相似度*先验概率)/标准化常量
  也就是说,后验概率与先验概率和相似度的乘积成正比。
  另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:
  后验概率 = 标准相似度*先验概率
  主要有两种推理方法:演绎推理和归纳推理。这两种推理的根源,就在于知识的两面性。
  我们知道,知识能量既有量化的一面,又有结构化的一面。可以认为存在3种形式的知识单元(知识元):0阶知识元、1阶知识元、2阶知识元。
1. 0阶知识元又称为实体,形式是:
* 实体=主语(主体)或宾语(客体)
2. 1阶知识元又称为结构化知识元,形式是:
* 结构化知识元=主语(主体)+一阶谓语(定性关系)【+宾语(客体)】
3. 2阶知识元又称为量化知识元,形式是:
* 量化知识元=主语(主体)+二阶谓语(量化关系)
  其中主语(主体)和宾语(客体)是知识元(包括0阶知识元、1阶知识元和2阶知识元)充当的具体角色。也就是说,一个知识元可以以主体或客体的形式参与组成别的知识元。
  例如:“张三的公司是联想”、“联想的地址在上地”这些是结构化知识元。“张三出生于1984年”、“张三体重70公斤”这些是量化知识元。无论多么复杂的知识,总可以分解为简单的3种知识元。例如:“2008年,张三进入联想公司”可以拆分为:结构化知识元A(张三进入联想公司)和量化知识元B(知识元A发生于2008年)这两个知识元。
  0阶知识元也是有意义的。例如老板问:“谁迟到了?”张三回答:“我。”其中老板的提问是1阶知识元,张三的回答是0阶知识元。
  在图形上,实体知识元可以用实体图(节点图)来表示。结构化知识元可以用关系图(网状图)来表示,其中主体和客体用节点表示,定性关系用节点之间的连线表示。量化知识元可以用坐标图(曲线图)来表示,其中主体用节点表示,量化关系用维度坐标来表示。如同所有知识都可以分解为3种知识元一样,所有图形都可以分解为3种图形:实体图、关系图和坐标图。当然这3种图也可以叠加在一起,如下所示:

  关系代数的输入和输出都是关系,关系是结构化知识元,而且亚里士多德逻辑、一阶逻辑、关系代数都是演绎推理。这就说明:输入和输出为结构化知识元的算法(推理)是演绎推理。
  贝叶斯定理的输入和输出都是概率,概率是量化知识元,贝叶斯定理属于归纳推理,这就说明:输入和输出为量化知识元的算法(推理)是归纳推理。包括贝叶斯定理在内的概率运算都是归纳推理。
  演绎推理负责结构化知识元的推理,归纳推理负责量化知识元的推理,但这还不能构成一个完整的闭合运算,还需要结构化知识元到量化知识元和量化知识元到结构化知识元的推理。
  关系数据库是一个成熟、完善的产品,它是人类所取得的最高成就之一。它不仅支持代表演绎推理的关系运算,也支持代表归纳推理的概率运算(概率运算其实就是由加减乘除等基本的算术运算组成的),除此以外还支持集合运算。
  最简单的集合运算有5个:求和、求平均、求最大值、求最小值、计数。这5个集合运算中,求最值(包括求最大值、求最小值)的输入是量化知识元,输出可以是任何知识元。求和、求平均、计数则相反,它们的输入可以是任何知识元,输出一定是量化知识元。也就是说,求最值能够实现从量化知识元到结构化知识元的推理,求和、求平均、计数能够实现从结构化知识元到量化知识元的推理。

  例如:联想公司有100人,公司想找出一个人来奖励奖励,以此激励整个团队的士气。怎么找呢?无非就是评工作年限、评销售额、评考勤率或者举行一次体育比赛看看谁跑得最快。工作年限、销售额、考勤率、跑步成绩这些都是量化指标,根据量化指标找出一个人(实体),这就实现了从量化知识元到结构化知识元的推理。当然,通过随机抽奖也可以找出一个幸运儿。与求最值一样,求随机也是实现从量化知识元到结构化知识元的推理算法之一。
  又例如,联想公司有100人,这个数字是怎么来的?无非就是一个人一个人数出来的。今年业绩是两千万,这个数字是怎么来的?无非就是一个单一个单累加起来的。求和、求平均、计数把人和单变成了数字,这就实现了从结构化知识元到量化知识元的推理。
  从结构化知识元到量化知识元的推理属于演绎推理,因为它的输入是真则输出一定也是真。而从量化知识元到结构化知识元的推理属于归纳推理,因为它的输入是真则输出不一定是真。归纳推理虽然不像演绎推理那样保真,但它却比演绎推理更高级、更有难度。演绎推理往往可以交给机器来运算,而归纳推理在多数情况下只能由人来做。
  比如说,联想公司有100个个人,那么联想公司的总人数一定是100。联想公司通过评工作年限、评销售额、评考勤率、体育比赛或者抽奖定出了要奖励的人,这个人未必就是功劳最大、最需要奖励的人。尽管如此,还是要奖励他,因为这样可以激励士气。
  为区别起见,从结构化知识元到结构化知识元的推理可以称为低级演绎推理,从结构化知识元到量化知识元的推理可以称为高级演绎推理,从量化知识元到量化知识元的推理可以称为低级归纳推理,从量化知识元到结构化知识元的推理可以称为高级归纳推理。
  所有的机器系统说到底都是由人和机器共同组成的人机交互系统,人机交互系统构成一个闭合的循环,这个闭合循环本质上就是知识推理的闭合循环。在这个循环中,机器负责运算,低级的机器可以进行低级演绎推理,高级一点机器的可以进行高级演绎推理,更高级的机器可以进行低级归纳推理。人负责提出问题,以及对机器的回答做出评价、判断和选择,还有最重要的:创建新知识。不管是提问还是评价、判断、选择以及创建新知识,都属于归纳推理,特别是高级归纳推理。

  总之,输入为结构化知识元的推理都是演绎推理,输入为量化知识元的推理都是归纳推理。关系运算和求和、求平均、计数等部分集合运算属于演绎推理,概率运算和求最值、求随机等部分集合运算属于归纳推理。演绎推理保真,归纳推理不保真。演绎推理和归纳推理合起来可以构成完整的、可持续的推理过程。其中的难点在于从量化知识元到结构化知识元的高级归纳推理过程,这一部分往往需要人来做。如果未来的机器系统能在实现演绎推理和低级归纳推理的基础上,再实现一部分高级归纳推理,那么就是向巨脑的方向前进了一步。

2013-03-30 00:52:28
  

1.9 神经网络和条件反射
  既然实现巨脑的突破点在于高级归纳推理,那么,应该如何实现高级归纳推理呢?高级归纳推理到底是怎么回事呢?
  高级归纳推理是根据量化知识元产生结构化知识元的过程,它是从量变到质变的过程,是“凭空”产生新知识的过程,是机器“自动”产生新知识的过程。
  至少有一个系统可以实现高级归纳推理,这就是人类的大脑,或者说神经网络。人类模仿神经网络提出了人工神经网络的理论,那么,现有的人工神经网络能实现高级归纳推理吗?以下摘自维基百科:
  人工神经网络(artificial neural network,缩写ANN),简称神经网络(neural network,缩写NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。
  神经网络是一种运算模型,由大量的节点(或称“神经元”,或“单元”)和之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(weight),这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
  它的构筑理念是受到生物(人或其他动物)神经网络功能的运作启发而产生的。人工神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method)得以优化,所以人工神经网络也是数学统计学方法的一种实际应用,通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域,我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法,人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力),这种方法比起正式的逻辑学推理演算更具有优势。
  神经元示意图:
  
  单层神经元网络是最基本的神经元网络形式,由有限个神经元构成,所有神经元的输入向量都是同一个向量。由于每一个神经元都会产生一个标量结果,所以单层神经元的输出是一个向量,向量的维数等于神经元的数目。单层神经元网络示意图:
  
  人工神经网络是一个能够学习,能够总结归纳的系统,也就是说它能够通过已知数据的实验运用来学习和归纳总结。人工神经网络通过对局部情况的对照比较(而这些比较是基于不同情况下的自动学习和要实际解决问题的复杂性所决定的),它能够推理产生一个可以自动识别的系统。与之不同的基于符号系统下的学习方法,它们也具有推理功能,只是它们是建立在逻辑演算算法的基础上,也就是说它们之所以能够推理,基础是需要有一个推理算法则的集合。
  通常来说,一个人工神经元网络是由一个多层神经元结构组成,每一层神经元拥有输入(它的输入是前一层神经元的输出)和输出,每一层(我们用符号记做)Layer(i)是由Ni(Ni代表在第i层上的N)个网络神经元组成,每个Ni上的网络神经元把对应在Ni-1上的神经元输出做为它的输入,我们把神经元和与之对应的神经元之间的连线用生物学的名称,叫做神经轴突的突触,在数学模型中每个突触有一个加权数值,我们称做权重,那么要计算第i层上的某个神经元所得到的势能等于每一个权重乘以第i-1层上对应的神经元的输出,然后全体求和得到了第i层上的某个神经元所得到的势能,然后势能数值通过该神经元上的激励函数(activation function,常是en:Sigmoid function以控制输出大小,因为其可微分且连续,方便en:Delta rule处理。)求出该神经元的输出,注意的是该输出是一个非线性的数值,也就是说通过激励函数求的数值根据极限值来判断是否要激活该神经元,换句话说我们对一个神经元网络的输出是否线性不感兴趣。
  一种常见的多层结构的前馈网络(Multilayer Feedforward Network)由三部分组成,
* 输入层(Input layer),众多神经元(Neuron)接受大量非线形输入信息。输入的信息称为输入向量。
* 输出层(Output layer),信息在神经元链接中传输、分析、权衡,形成输出结果。输出的信息称为输出向量。
* 隐藏层(Hidden layer),简称“隐层”,是输入层和输出层之间众多神经元和链接组成的各个层面。隐层可以有多层,习惯上会用一层。隐层的节点(神经元)数目不定,但数目越多神经网络的非线性越显著,从而神经网络的强健性(robustness)(控制系统在一定结构、大小等的参数摄动下,维持某些性能的特性。)更显著。习惯上会选输入节点1.2至1.5倍的节点。
  神经网络的类型已经演变出很多种,这种分层的结构也并不是对所有的神经网络都适用。
  
  通过训练样本的校正,对各个层的权重进行校正(learning)而建立模型的过程,称为自动学习过程(training algorithm)。具体的学习方法则因网络结构和模型不通而不同,常用en:Backpropagation(the back-propagation algorithm/倒传递/逆传播,以output利用一次微分en:Delta rule来修正weight)来验证。
  人工神经网络比另一种人工智能算法——基于符号系统下的学习方法——要高级,因为符号系统类似于关系代数,它能实现演绎推理,而人工神经网络能实现归纳推理。人工神经网络输入的是权重,或者说概率,输出的也是概率,所以与贝叶斯定理一样,人工神经网络实现的也是低级归纳推理,它不能实现高级归纳推理,不能产生新知识。
  为什么人类的神经网络能产生新知识而现有的人工神经网络不能产生新知识呢?二者的区别在哪里呢?从表面上看,二者的区别在于:
  第1,神经网络神经元的数目特别巨大,远多于人工神经网络。
  第2,神经网络中每个神经元只与一小部分神经元相连,而人工神经网络中每个神经元与所有神经元(无向网络)或相邻层所有神经元(有向网络)相连。
  这2个区别是紧密相关的。正是因为人类神经网络神经元数目特别大,所以每个神经元无法与所有神经元相连,只能与一小部分神经元相连,这种网络称为部分连接网络。而现有的人工神经网络个数有限,所以可以与所有神经元(无向网络)或相邻层所有神经元(有向网络)相连,这种网络称为全连接网络。
  在全连接网络中,连接的个数基本上与神经元个数的平方成正比,这就意味着随着神经元个数的增长,连接的个数会无限膨胀,机器或生物根本无法承担这样无限多数量的连接,更别提用这些连接进行计算了。而在部分连接网络中,连接的个数基本上与神经元个数成正比,这就意味着连接个数的增长速度与神经元个数的增长速度差不多,机器或生物如果能承担神经元个数,也就能承担连接个数。
  网络的神经元个数越多,推理能力越强。这说明:部分连接网络比全连接网络更符合实际,推理能力更强。
  对于全连接网络,知识只能存储在“权重”、“概率”或者说“连接的强度”中。而对于部分连接网络,知识除了存储在“连接的强度”中以外,还可以存储在“连接(即连接本身是否存在)”中,而且“连接”是知识的主要载体,“连接的强度”是补充。在部分连接网络中,可以创建连接,连接是知识,所以创建连接就是创建知识。而在全连接网络中,不能创建连接,也就不能创建知识。
  所以,只有像人类神经网络这样的能自动创建新连接的部分连接网络,才能够创建新知识,才能够进行高级归纳推理。未来的巨脑,就是这种能自动创建新连接的部分连接网络。
  建立一个部分连接网络容易,关键是要让它能自动创建新连接。也就是说,要找到一个根据量化指标(量化知识)来建立新连接(结构化知识)的算法。
  有没有这样的算法或理论呢?有,这就是著名的条件反射理论。以下摘自维基百科:
  经典条件反射(巴甫洛夫条件、反应条件、alpha条件),又译古典制约,是一种关联性学习。这种产生条件行为的学习型态被伊万·巴甫洛夫描述为动物对特定条件刺激的反应。最简单的形式,是亚里士多德曾经提出的接近律,也就是当两件事物经常同时出现时,大脑对其中一件事物的记忆会附带另外一件事物。
  经典条件反射理论一开始的重点放在反射行为或是非自愿行为。任何一个反射都是中性刺激与产生的反应两者的关系。近几年来对经典条件反射理论所做的反射限制被抛弃,且自愿行为的条件刺激也成为重要研究。
  经典条件反射的典型范例,包含了可重复的中性刺激和非条件刺激。非条件刺激(unconditioned stimulus、US)能够引起非条件反应(unconditioned response、UR),且不需要经过学习,非条件刺激和非条件反应的关系,称做非条件反射。条件刺激(conditioned stimulus、CS)则是能够引起条件反应(conditioned response、CR)的初始中性刺激(neutral stimulus、NS),这是需要学习的。且条件刺激与心理学上立即性和长期性的期待、满足与恐惧有关,条件刺激和条件反应的关系,称做条件反射。当非条件刺激重复性地或是猛烈地伴随着某个中性刺激,这个中性刺激会成为一个条件刺激,并产生条件反射。
  以下实验俱可简化为三部分:
* 非条件前提:非条件刺激 → 非条件反应
* 非条件插入:非条件刺激 + 中性刺激 → 非条件反应
* 条件效果:条件刺激(=中性刺激) → 条件反应(=非条件反应)
  原则
  a.消灭(extinction):若只出现CS,不再出现US,则以建立的CR将逐渐减弱,甚至不再反应。
  b.类化(generalization):当经典条件反射学习完成后,与CS类似的其他刺激,也能产生同样的条件反应。
  c.差异(discrimination):新旧CS差异太大,无法达到共同成效。
  经典条件反射最著名的例子,是巴甫洛夫的狗的唾液条件反射。狗能够对食物自然而然的分泌唾液,此时巴甫洛夫将食物看作非条件刺激(US)、唾液分泌看作非条件反应(UR),并将两者的关系称为非条件反射。而如果在提供食物之前的几秒钟发出一些作为中性刺激(NS)的声响,将会使得这个声响转变为条件刺激(CS),能够单独在没有食物的状况下引起作为条件反应(CR)的唾液分泌,两者的关系则被称做条件反射。
  这种与食物相关的刺激与所引起的反应的关系便是所谓经典条件反射。食物引起唾液分泌是先天性的,而声响之所以能够引起唾液分泌,源自动物个体的所经历的经验。
  本实验简化如下:
* 食物 (US) => 唾液分泌 (UR)
* 食物 (US) + 声音 (NS) => 唾液分泌 (UR)
* 声音 (CS) => 唾液分泌 (CR)
  刺激是什么?不是别的,就是能量。声、光、电、冷、热、气味、触觉、食物、信息、知识,它们都是刺激,也都是能量。不管是非条件刺激还是中性刺激,都是能量。反射(或反应)是什么?就是连接,就是结构。食物与分泌唾液之间的连接是结构,声音与分泌唾液之间的连接也是结构。不管是非条件反射还是条件反射,都是结构。
  所以,条件反射理论其实就是刺激生成连接的理论,就是量化知识生成结构化知识的理论,就是我们要找的高级归纳推理。当然,条件反射是生物学中的理论,我们要把它转化成计算机算法,才能应用到由机器搭建的巨脑中。
  需要注意的是:在前文中说,求最值和求随机是高级归纳推理,这里又说条件反射是高级归纳推理,这两种说法并不矛盾。求最值和求随机只是一个简单的小算法,是高级归纳推理中的一个步骤,而条件反射才是一个完整的高级归纳推理过程,它其中包含了求最值和求随机这样的小算法。
  例如,在给狗提供食物的同时发出声响,这个声响并不是唯一的中性刺激,除此以外必定还有环境温度、湿度、亮度等其它中性刺激。声响虽然不是唯一的中性刺激,却是最大的中性刺激,所以最终是声响而不是其它中性刺激与分泌唾液建立了连接。这就说明:条件反射其实是包含了求最值。


 

2013-03-30 00:57:35
  

文中夹有图片,全文请参见附件:

../files/201303300055_NNK2013-产生论.pdf

或在以下地址下载:

http://www.360doc.com/content/13/0317/15/11775283_272046681.shtml

2013-08-17 04:02:00
  
谢谢分享。我只很快地略过一遍。

你的产生机器 (或学习机器),是不是朝某种 objective function 进化? 那会不会是负熵?

根据传统学习理论,若想学习加快,必须增加 inductive bias。  例如,使用某种限制了的逻辑,使我们对目标假设 (target hypothesis) 的搜寻空间缩小。 你的理论似乎太高层次,inductive bias 不够,所以可能几百万年都进化不了智能出来。

有没有听过 AIXI?  也是很高层次,但未必太实用的理论 :)
登录后才可以评论,马上登录