2023年,《咬文嚼字》编辑部发布的“十大流行语”中“人工智能大模型”赫然在列。
2024年,新课标I卷的高考作文是,
“随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?以上材料引发了你怎样的联想和思考?请写一篇文章。”
今年4月,清华大学人工智能学院正式成立,学院布局“人工智能核心”与“人工智能+”两大前沿方向。
可以说,这两年,关于“人工智能”的话题越来越多,人们对其关注度也越来越高,不仅仅因为人工智能的快速发展,也因为人工智能的前沿应用(AI+X)越来越广泛。
那么,到底人工智能的内涵是什么?目前的人工智能技术能达到什么程度?人工智能如何被应用?
想要回答这些,不妨从《人工智能》开始。
这本书由“图灵奖”获得者,清华大学人工智能学院首位院长姚期智先生主编,涵盖了人工智能的核心原理与算法,既能让读者对人工智能有整体的认识,也能带你领略人工智能的魅力。
AI+历史
纪录片《你好,AI》中有这样一段:
长城作为防御工事的伟大建筑,许多段都修建于险峻之势,完好之时都不易攀登,几千年的历史消磨后,修缮的难度更是非常之大。
基于传统测绘手段获得缺损建筑数据,耗时长,容易遗漏信息。无人机的出现,改变了这一情况,但长城复杂的地势和植被情况,让工作依旧有难度。
如今,“箭扣长城人工智能修复项目”用无人机对长城进行全角度采集拍摄照片,生成3D模型,然后计算机去识别各个缺损部分,人工智能技术进行自动化缺损检测,并对长城进行数字化虚拟修复。
人工智能3D对抗生成网络这项技术,让历史被AI激活,完成这些的背后,是数据、算法、程序等等,更值得一提的是神经网络。
正如新智源创始人杨静在视频中说,“现在ResNet已经到了152层,甚至有上千层的深度神经网络。”
神经网络?深度神经网络?到底是什么。
人工神经网络,简称神经网络,它是一种模仿生物神经网络结构和功能的非线性数学模型。神经网络由大量的节点和节点之间的连接所构成,这些节点被称为神经元。
神经元分为输入层、隐藏层和输出层。神经网络通过输入层接受原始特征信息,再通过隐藏层进行特征信息的加工和提取,最后通过输出层输出结果。
单纯的神经网络只能处理简单的问题,于是,科学家们又发明了深度学习的神经网络。也就是说,神经网络可以包含多层隐藏层。
当一幅图送到计算机中,计算机会把每一个像素点的数字信息作为输入端送到神经网络中,神经网络中的每一个神经元会对这些信息进行判断,上一层的判断输出作为下一层的输入,经过多层的传递,计算机就能对复杂问题进行判断了。
想要神经元做出判断,并非是人类提前做好的设计,而是计算机通过学习所完成的。
不得不说,人工智能改变的不只是未来,也贯连了过去。
AI+文化
当人们还在争论AI生成文章对文化、教育到底有利还是有弊时,今年2月,sora的出现,再次刷新人们的认识。
依据用户输入的文字,就能在几秒钟自动生成一段视频……这个自称为“世界模拟器”的生成式大模型,把人工智能的“无中生有”技能又提升许多。
同样是今年2月,中国首部国风文生视频AI动画片《千秋诗颂》正式启播,中央广播电视总台人工智能工作室同步揭牌运行。
3月16日,运用AI工具进行智能翻译润色后,《千秋诗颂》的德语、意大利语、葡萄牙语等版本在海外播出。
这部以AIGC技术支撑制作的动画片,将博大精深的中华古典诗词,变成了可视的唯美国风动画,科技的冲击与文化的碰撞,让观者大呼震撼。
据统计,该片累计触达观众9441.3万人次,在所有上星视频动画片中收视率第一。
随着人工智能成为一个耳熟能详的词,AIGC也当之无愧地荣登热门。
AIGC是“AI生成内容”的简写,核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。
因此,有人说,“AIGC的能力由机器学习模型提供。”
机器学习,是人工智能领域的一个重要组成部分,它不需要人类做显式编程,而是让计算机通过算法,自行学习和改进,去识别模式,做出预测和决策。
机器学习中的核心框架是监督学习,本质是一种模仿学习,除此之外,还包含无监督学习和半监督学习。
机器学习算法会接受有标签的训练数据。无监督学习与监督学习的不同就是,无监督学习的数据是没有标签的,所以算法的任务是自主发现数据里的模式或规律。
最常见的无监督学习任务叫做聚类,就是对给定的数据按照某个标准分类,例如,对用户人群进行分类,对考试出现的题型进行分类,对动物进行分类等等。
人类学习是通过语言、文字、图片等等,机器学习亦类似,只不过变成了许许多多的数据。
AI+生产
达布希拉图是阿鲁科尔沁旗达布希绿业公司的总经理,他从国外刚回到草原时,经历了一场黄沙蔽日。于是,他决定在自由草场的基础上再流转一万亩土地,以规模化和自动化来培育优良的牧草,提高收益的同时,击退黄沙。
培育牧草有时似乎也是“靠天吃饭”。收割前最好有一场雨,草的含水量会更高,但晒的时候却希望不下雨。这似乎是对抗自然的不解之题。
达布希请到了北京的一个团队,他们利用人工智能模型,将数据计算量扩大,增加短时临近降水预测,从而给出“精准天气预报”。
最初,人工智能的判断与达布希在草原凭借着对自然草本的观察产生了分歧。然而,雨水的到来印证了计算机的预测。
后期,达布希说准确率达到了90%以上。人工智能还做到了把预报空间缩小到1平方公里,未来两小时每6分钟一次的预报频率。
人工智能的算法跑赢了几千年的经验,或许,“数据”功不可没。
一般来说,在面对机器学习问题时,人们会假设有一组标注好的数据,叫做训练数据集。一个训练数据集通常包含大量的数据点,有时候是几十万、上百万,甚至上亿。
现代机器学习算法,如深度学习等,往往需要大量的数据,那么,如何确保能够构建一个庞大又高质量的数据集呢?
首先是输入的采集,如果仅仅需要收集图片文字的话,可以考虑从互联网上获得,但如果要获取含有隐私信息的数据,就会非常困难。
收集了N条数据,有了输入,还要找到对应的输出。当数据量很大时,单靠几个人的力量是远远不够的。
一个可行方法是使用众包,通过互联网的力量,让成千上万的人共同参与对数据的标注工作,缺点是如何检测胡乱标注的情况。
此外,另一个常见的方法是填验证码。用户每填对一次验证码的时候,也是给计算机进行了一次数据标注。
有人说,“数据的积累成为跃升到新世界的必经之路。”但除了数据,人工智能也需要有更接近于“人”的能力。
AI+生活
访谈节目《未来说执牛耳者》中,介绍了上海期智研究院的一些研究,其中多模态运动智能实验室的专家们,在做运动智能特别强的机器人研究,希望能用在抢险救灾等多种场景中。
研究面临许多挑战,比如,如何让机器人“看懂”复杂的地形,然后再做眼手足的协调。
可以说,多模态运动智能包括的重要因素之一就是,机器人要有一双好“眼睛”。
同时,他们还在发展一个以视觉为中心的自动驾驶的框架。
项目负责人介绍,传统的自动驾驶方案,是基于人手绘制的地图,再加上高精度的激光雷达对环境扫描。然而,生活中的道路环境,有时复杂到用激光雷达扫描的方式也无法判断。
在这种情况下,就需要机器人用视觉去看懂对方的意图,从而做出更合理的一些交互方式。
对于人类而言,视觉仿佛是天生的,我们通过视觉系统实时、精确地获取大量的信息。一个人工智能系统也要具备视觉感知的能力,却极其不易。
计算机视觉是一个研究如何让计算机理解图像与视频中高层次语义信息的学科。
具体来讲,计算机视觉从现实世界的图像信息中提取数字式或符号式的信息,例如,用自然语言表达图像中包含什么样的物体或是从视频信息中输出自动驾驶的决策。
在过去几十年的研究过程中,人们发现了许多方法让计算机去理解图像。2012年,卷积神经网络的出现,让图像识别任务有了长足进步。
神经网络中的卷积操作,需要的参数要远远少于全连接神经网络用于图像处理时需要的大量参数。
经过不断地论证,卷积神经网络不仅在物体识别领域达到了很高的准确性,还在很多其他的计算机视觉任务上取得了巨大提升。
当你在公园看到一朵不知名的花儿时,有没有掏出手机识别一下?你每天打卡的面部识别机器灵敏吗?
有人说,“人工智能在帮我们进入全新的释放时代”,它就像有一双“眼睛”在替我们看着这个世界,当然,也看着我们。
结束语
人工智能是一个具有颠覆性的新领域,从其发展的历史看有两个里程碑式的事件发挥了深远影响。
其一是阿兰·图灵在1950年的划时代论文《计算机器与智能》中提出的著名的图灵测试,从科学的角度给出了智能的定义。
其二是1956年在达特茅斯学院,约翰·麦卡锡、马文·明斯基、纳撒尼尔·罗切斯特以及克劳德·香农等学者们正式提出了人工智能的概念。
从1956年至今,一甲子的时间,人工智能不断地研究与创新,包含的细分领域越来越多,产生的应用越远不止前面提到的几个方面,还有AI+通信,AI+生物医疗,AI+教育等等。
在人工智能飞速发展的过程中,争议也不少,许多科幻片中都提到了人工智能取代人类的情节,让人们对人工智能的安全产生一定怀疑,由此也引发了对人工智能的管理、设计等方面的思考。
姚期智院士曾在一次采访中提到了关于“人工智能治理”的相关话题。
在他看来“研究怎么样来控制机器人,必定又是另外一种人工智能科技”,他也相信,“我们有这个智慧,能够把它变成一个帮助我们人类生活,而不是摧毁我们生命的科学技术”。
想要在人工智能越来越占据C位的今天,更稳扎稳打地推进,或许,前提条件,就是对理论知识的掌握必须扎实牢固。《人工智能》这本书会为你打下很好的基础。
以上就是今天的分享了,如果觉得对您有启发的话,可以购买实体书,包邮到家,继续阅读!