所有科学中最重大的目标就是,从最少的数量的假设和公理出发,用逻辑演绎推理的方法解释最大量的经验事实。
————吉尔伯特·爱因斯坦
今天小木要向大家推荐一本书——《终极算法
机器学习和人工智能如何重塑世界》。书中的中心假设是:所有知识,无论是过去的、还是现在的还是未来的,都有可能通过单个通用学习算法来从数据中获得。
作者佩德罗·多明戈斯,是华盛顿大学的终身教授,是国际机器学习学会联合创始人和美国人工智能协会院士,荣获多项科技研究顶级奖项,在机器学习与数据挖掘方面著有200多部专业著作和数百篇论文。在机器学习方面是资深专家。多明戈斯一直致力于融合各种机器学习算法的优势,提出一种可以解决所有应用问题的通用算法,就是书上中心假设中所述的终极算法。
对于"终极算法到底存在与否"这个堪比物理界大一统理论的终极命题,以笔者的粗浅的学识和才华,是完全不具备对此命题发表见解的资格。笔者随着作者的思路,先被"是否存在终极算法的问题"这个终极问题所正震撼到,然后又随后作者多明戈斯教授一章一章的了解了机器学习史上重要的流派和主要的算法。每回顾一轮,就借鉴下这类算法的优点。读完本书,无论对终极算法这个终极命题持何态度,都会对现有的机器学习各类主要的算法有了一定的了解。在这个机器学习和人工智能无处不在的时代,无论你是科学家还是工程师,还是一名高校的学生,亦或者是普通人,了解你身边发生的变化后的原理和技术都是十分令人激动的一件事情。
/ 终极算法 /
所有知识,无论过去的、现在的还是未来的,都有可能通过单个通用学习算法来从数据中获得。如果这种算法成为可能,这项发明将成为人类最伟大的科学成就之一。如果这种算法成为可能,我们只有给他提供足够的数据,他就会发现相应的知识;给他一座图书馆,他就会看。给他足够多的建筑设计案例,他就能自己设计建筑。
终极算法的假说虽然夸张,但是有足够多的学科的研究成果可以成为它存在的重要论据。
神经科学发现大脑中所有的信息都以相同的方式(通过神经元放电的形式)来表示。学习机制也相同,记忆通过加强集群放电神经元之间的连接得以形成。
进化论学科则已经证实生物的多样性来源于单一的机制:自然选择。
在物理学中,适用于不同数量的方程,往往可以用来描述发生在不同领域的现象,例如量子力学、电磁学、流体动力学。人们很容易就自然而然的猜想,这些都是主方程的几个例子。
按照统计学中的贝叶斯统计学派的观点,贝叶斯定理是数据变成知识的唯一正确办法。
计算机学科中,有诸多问题如达到几个城市的捷径、按照给定的回报率找到最安全的投资组合,甚至提高你的俄罗斯方块分数,这些问题都是属于NP完全问题。这些表面上看起来迥然不同的问题,其实本质上是同一类问题。
当今的科学已经被拆分的四分五裂,就如同巴别塔中的亚社会都说着自己的语言,只能看到几个相邻的亚社会。终极算法的提出会给所有学科以统一的思想,并有潜力提出一套新的万有理论。终极算法可能是一代人一代人的工作和任务。找到终极算法的唯一方法就是早早动身踏上征途。
/ 巨人的肩膀和机器学习的五大学派 /
在当今机器学习的领域中,存在着不同思想的学派,主要包括符号学派、联结学派、进化学派、贝叶斯学派、类推学派。每个学派都有其核心理念以及关注的特定问题。
符号学派认为所有的操作都可以简化为操作符号,就像数学家那样,为了解方程,会用其他表达式来代替本来的表达式。符号学者认为不能从零学习,除了数据,你还需要一些原始知识。他们已经弄明白,为了使演绎进展顺利,哪些知识被忽略了,然后弄明白什么使主算法变得越来越综合。
对于联结学派来说,学习是大脑做的事情。因此我们要做的就是对大脑逆向演绎。大脑通过调整神经元之间的连接的强度来进行学习,关键问题找到那些连接导致了误差,以及如何纠正这些误差。联结学派的主算法是反向传播学习算法。该算法讲系统的输出和想要的结果相比较,然后连续一层一层的改变神经元之间的连接,目的为了使输出的东西接近想要的东西。
进化学派认为,所有形式的学习都源于自然选择。如果自然选择造就了我们,那么他就可以造就一切,我们呀偶做的,就是在计算机上对它进行模仿。进化注意解决的问题是学习结构:不只是像反向传播那样调整参数,它还创造大脑,用来对参数进行微调。进化学派的主算法是基因编程,和自然使用有机体交配和进化那样,基因编程也对计算机程序进行配对和提升。
贝叶斯学派最关注的问题是不确定性。所有掌握的知识都有不确定性,而且学习知识的过程也是一种不确定的推理形式。那么问题就变成,在不破坏信息的情况下,如何处理嘈杂,不完整甚至自相矛盾的信息。解决的办法就是运用概率推理,而主算法就是贝叶斯定理及其衍生定理。贝叶斯定理告诉我们,如何将新的证据并入我们的信仰中,而概率推理算法尽可能有效的做到了这一点。
对于类推学派来说,学习的关键就是要在不同场景中认识到相似性,然后由此来推导出其它相似性。如果两个病人有相似的症状,那么也许他们患有相同的疾病。关键的问题是,如何判断两个食物的相似度。类推学派的主算法是支持向量机,主算法找出记忆的经历,以及弄明白如何将这些经历结合起来,用来做新的预测。
在追寻终极算法的过程中,我们已经有了数十年的研究基础,我们可以站在五大学派的研究的肩膀上展望未来的终极算法。
/ 终极算法X建筑 /
在过去十年,机器学习在无人驾驶车、高效语音识别、精确网络搜索及人类基因组等项目的研发上起到了十分重要的作用。在你可能还不知情的情况下,机器学习就已经为你服务无数次。购物网站利用算法来帮你推荐商品,点评网站用算法来帮你选择餐馆,GPS系统用算法来帮助你选择最佳的路线,公司用算法来选择求职者等等。可以这么说,机器算法和人工智能已经很大程度上影响了人们的生活。
在建筑领域,笔者相信随着人工智能的不断发展,在不久的将来,即将出现新的突破点。传统的建筑设计方法、设计过程、建造流程、项目管理等方面都将迎来新的革新,传统的价值判断和操作流程将以一种崭新的面貌和设计师对话。建筑技术带来的革新也会给传统建筑教育以新的命题。
草图与电子草模,手写识别,语音识别到草图和电子模型的关联。伴随着机器学习的发展,很有可能在不久的将来,计算机程序可以帮助建筑师迅速从建立从草图到草模的联系,从而在单位时间内完成过多次的设计迭代过程。
在人工智能发展的时代,可能在未来建筑审图并不会像现在一样,会是一个非常漫长枯燥的工作,随着BIM信息模型的普及,人们审核图纸不在单纯靠人肉输出,计算机程序会给审图带去极大的便利。甚至在审图中发现错误的时候,会像现在人们在word中打字时候回出现纠错功能一样(虽然纠错功能现在大多数依靠的并不是机器学习),程序自动可以修改的合理方案,帮助建筑师在复杂的项目中为业主提供更好的决策建议。
当然,论机器学习在建筑设计行业中可能的终极命题,笔者认为大概就是建筑全自动设计了吧,设计师之后可以让机器先提供个几百种方案,然后不断的调教自己的机器设计出更加好的方案。
那么人们或许会问,在终极算法到来之前,我们能够做些什么?
要知道,当下最佳的棋手是所谓的人马怪(半人、半程序),在其他很多职业中也亦是如此,从证券分析师到棒球球探,再到之后可能的建筑自动设计。这并不是人和机器的对抗,而是有机器的人和没有机器的人对抗。人不会试图跑的比马要快,而是试图去驾驭它。所以,在终极算法到来之前,我们应该尽自己所能,拥抱这个即将变革的时代。
最后附上书上的一句话作为本文的结尾,"计算机科学还年轻,并不像物理学或者生物学那样,发起一场革命,你并不需要博士学位(可以参照比尔盖兹,马克扎克伯格),洞察力和坚持才是最重要的东西。"