潜艇会游泳吗?读《智慧的疆界》

 

智慧的疆界

这本书是一本人工智能简史,前面几章科普效果很好,后面介绍到算法,看不懂的很多。等再打打数学根基后,再读一遍。

1. 书摘

人工智能学科包含了三大学派:

  1. 符号主义学派
  2. 连接主义学派
  3. 行为主义学派

符号主义学派不关注大脑如何思考的,希望通过构建规则、决策树,来解决问题。利用逻辑推理、搜索来匹配输入输出。

对比现在最热门的基于神经网络的机器学习,以决策树学习为代表的基于符号的机器学习有一个很好的性质:它生成的模型是一个白盒模型,输出结果的含义很容易通过模型的结构来解释,而神经网络输出的是一个黑盒模型,最终结果往往是模型确实可以解决问题,甚至是工作得非常好,但是人类无法根据模型去解释为什么会如此。可解释性是符号主义思想先天决定的,这也是基于规则学习算法对比起现在流行的基于神经网络学习算法的一个巨大优势

连接主义学派着重于研究大脑是如何处理信息的,希望通过诸如感知机这类的研究解决问题。

1949年,赫布出版了《行为组织学》(Organization of Behavior)一书。在该书中,赫布总结提出了被后人称为“赫布法则”(Hebb’s Law)的学习机制。他认为如果两个神经元细胞总是同时被激活的话,它们之间就会出现某种关联,同时激活的概率越高,这种关联程度也会越高。

行为主义学派,我理解更加复杂,包含了控制科学、人工生命、机器人学等与人工智能有密切关系的各类交叉学科。

给考察对象以某种刺激,观察它的反馈,通过研究反馈与刺激的关系来了解对象的特性,而不去纠结对象内部的组织结构,这就是行为主义方法。

书里关于正确率、精确率、召回率的定义,也有必要摘抄出来。 假定我们开发了垃圾邮件识别算法,那么无外乎以下几种情况:
1)将垃圾邮件识别为垃圾邮件,这种0-1分类器将正面结果识别为真的称为“真正”(True Positive,TP)
2)将垃圾邮件识别为有效邮件,这种0-1分类器将正面结果识别为假的称为“假正”(FalsePositive, FP)
3)将有效邮件识别为垃圾邮件,这种0-1分类器将负面结果识别为假的称为“假反”(False Negative, FN)
4)将有效邮件识别为有效邮件,这种0-1分类器将负面结果识别为真的称为“真反”(True Negative, TN)

正确率的含义是对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。即:(TN + TP) / (TN + TP + FN + FP). 比如假设测试集中包含有效邮件8000封,垃圾邮件2000封,共计有10000封邮件。现在使用某个模型从中一共挑选出5000封垃圾邮件,经核实,模型挑选的邮件中有2000封确实是垃圾邮件,另外还错误地把3000封有效邮件也当作垃圾邮件挑选出来了。 那么正确率=70%,换句话说,错误率=30%.

但是只单纯的通过正确率评估是片面的。

比如假设测试集的10000封电子邮件,其中只包含150封垃圾邮件,其余都是有效的。

  1. 第一个模型从10000封邮件中识别出了250封垃圾邮件,而这250封被标记的垃圾邮件中,又有100封确实是垃圾邮件,另外150封是被错误标记的有效邮件。那么正确率=(9700 + 100) / 10000 = 98%
  2. 第二个模型,是一个压根就不能工作的“坏模型”,在这10000封邮件中完全没有找出任何垃圾邮件。那么正确率=(9850 + 0) / 10000 = 98.5%

这就是正确性悖论。 此时就依赖精确率了,精确率度量反映出来的是模型的“查准比例”,通俗点的说法就是“你的预测有多少是对的?”。精确率=TP / (TP + FP) 。 召回率通俗地解释就是“样本的正例里面,有多少正例被正确预测了”,它度量的是模型的“查全比例”,因此也叫“查全率”。召回率=TP / (TP + FN)。

2. 点滴思考

我在读这本书的时候,有几个人的事迹让人印象深刻:

  1. 香农一手创建了信息论,是信息科学的奠基人之一。他一生获奖无数,但在家中所有的奖状和证书都锁在抽屉里,家里最显眼的地方,只放着一张证书—“杂耍学博士”(Doctor of Juggling),真是好玩儿。
  2. 沃尔特·皮茨出生于底特律一个极度贫困的家庭,但是他天资聪颖,喜爱数学和逻辑。与麦卡洛克发表的的《神经活动中内在思想的逻辑演算》一文被认为是连接主义研究的开端。可惜在跟维纳决裂、麦卡洛克病倒后,整个人孤独酗酒,令人唏嘘和惋惜。
  3. 达特茅斯会议作为标志着人工智能学科的开创性会议,当时的参会者一共诞生了四名图灵奖得主:明斯基和麦卡锡、司马贺和纽厄尔,他们也分别开创了各个大学的人工智能实验室。但是两组人之间分歧很大。
  4. 彼时,卡内基梅隆大学并没有今日的学术名声,只是一所全美排名在100名开外的“二本院校”。但司马贺就能将他执教的政治、经济、管理、行政、心理和计算机的几个专业在30年时间里硬生生地都拉到了全美顶尖的水准,卡内基梅隆大学也从此位列世界顶尖名校。学校为表彰他的贡献,给予了他匹兹堡郊外松鼠山上的一栋别墅和终身校董荣誉。

回顾人工智能的发展历史,当学科刚开始,人们的思考是天马行空的,不受任何的束缚;当然,在今天看来小的进步,也会描述的夸大其词。 这不是故意宣传的噱头,实际上,因为不确定边界,所以过度乐观。同样的,从圆点出发,各个方向似乎都有可能,不知道在哪里碰壁。而一旦碰壁停下来,又会长达数年甚至数十年之久,过度悲观。

有很多问题,我们一旦了解了这些行为背后的原理,它立刻就变得代表不了智能,归入可机械化的任务了。人工智能这门学科,理论和实验两方面,待解释的问题都很多。

这篇笔记的题目,关于机器能否思考这个问题,引用书里的一句话:

乔姆斯基再次被问到了“机器能思考吗?”这个问题,他反问道:“潜艇能够游泳吗?”