破晓未来生成式跨越认知鸿沟光年

允霆科技编程 2024-07-25 550 0 破晓未来生成式跨越认知鸿沟光年

图片来源：《2024中国·AI盛典》截图

作者｜薛芳

编辑｜王伟凯

出品｜深网·腾讯小满工作室

兵马俑开口，苍凉雄浑的秦腔一声吼，“八百里秦川，千万里江山……英雄千百万，多少的故事永流传……”静默千年的文物，依托AI技术，“苏醒”了过来；从“北宋”穿越而来的苏轼唱起了《水调歌头》；孔子、老子、韩非子、苏格拉底，跨越时空上演了“百家争鸣”……

这是近日央视《2024中国·AI盛典》晚会上展现的盛况，这些都依托于当下的生成式AI技术。而这一切缘起是，2022年11月20日，美国旧金山，一家名为“OpenAI”的人工智能研究机构公布了一款名为“ChatGPT”的免费应用。

瑞银集团的一份研究报告显示，在ChatGPT推出两个月之后，它在2023年1月末的月活用户就已经突破了1亿，成为历史上用户增长速度最快的消费级应用程序。相比之下，其他几款也曾经风靡全球的应用，例如TikTok达到1亿用户用了9个月时间。

人们将此视作人工智能科学技术的第三次爆发。

第一次是1997年5月，IBM公司开发的“深蓝”国际象棋程序打败了当时的国际象棋世界冠军卡斯帕罗夫；第二次是2016年3月，由DeepMind公司开发的围棋人工智能程序AlphaGo打败了当时的围棋世界冠军李世石。

有人将ChatGPT与iPhone相提并论。正如英伟达创始人兼首席执行官黄仁勋认为：“我们正处于AI的‘iPhone时刻’。”比尔·盖茨此前评价ChatGPT称，这种人工智能技术出现的重大历史意义，不亚于互联网和个人电脑的诞生。

人们对人工智能的感情稍显复杂。人最重要的特征——思考和推理的能力，现在人类不再独有。诚如尼采所说：“如果把悠闲的沉思从生命中剔除出去，那么人将毁于一种致命的积极性。”

有人预测，人工智能超越人脑只是个时间问题，一个全新的时代正在拉开序幕。

产业界也被AI浪潮撕裂两波，马斯克认为超级AI会像碾死蚂蚁一样摧毁人类。小冰公司CEO李笛告诉《AI光年》：“影视剧中AI控制奴役人类是一种想像中的浪漫主义，AI现在还处在一个相对早期的阶段，很多思想和理念也是特别原始的状态，我们甚至可以称之为蛮荒时代。”

即便如此，不得不承认，当下人工智能已经不再是人们畅享的未来，未来已来，技术的理想已经照进现实。

ChatGPT对IT、教育、金融、创作等诸多职业领域的冲击，当下正被广泛讨论。突飞猛进的人工智能究竟会给我们人类生活带来什么样的影响？比如说，会不会迎来大规模的失业或者就业的重组？

跨时代的技术奇点来临

其实，在ChatGPT之前，第一个聊天机器人诞生于20世纪60年代中期，东部的麻省理工学院（MIT），有一位科学家维森鲍姆，整日对着计算机，正在思索一个问题——是否有可能实现图灵关于人工智能的想法？

图灵1950年在他的题为“计算机械与智能”的论文中提出，如果一台计算机可以通过文本与人类进行令人信服的对话，则可以认为它是智能的，这一思想也是著名的图灵测试的基础。

维森鲍姆那一时期要做的，是现在称为NLP（自然语言处理）的问题。当时已经存在一些基本的数字语言生成器，用户可以使用打字机输入人类的自然语言，然后获得机器的响应，机器可以输出一些连贯的文本。

然而，并没有一个明确设计用于与人互动的程序。维森鲍姆改进了一种名为MAD-SLIP的专有编程语言，用200行代码来创建了一个程序。特别令人兴奋的是，程序虽简单效果却不错。1966年，维森鲍姆推出了世界上第一个聊天机器人ELIZA。

基于当时计算技术发展的水平，维森鲍姆认为，实现人机之间对话的最佳方式是模仿精神分析的方法——利用重复结构，让程序重复单词并重新表述以问题形式给出的陈述。因此，ELIZA并不需要真正理解输入和输出的含义，但它的反应能够给人一种“具有智能”的错觉。

维森鲍姆不相信任何机器能够真正理解人类对话，他在1977年接受《纽约时报》采访时表示：“成为一个人是必要的。爱和孤独与我们生物体质的最深层后果有关。对于计算机来说，这种理解原则上是不可能的。”

但人们对程序是如何运作的毫不在意，对继续和机器对话有着深深的痴迷。

1948年，香农把离散马尔可夫过程的概率模型应用于描述语言，之后，他又把热力学中“熵”的概念应用于语言处理的概率算法中。

之后自然语言结合机器深度学习技术。这是一项可以大幅提升AI系统效率的方法，即所谓“深度学习”，主要就是以这种反向传播技术为基础，这项技术发明于20世纪60年代，并于20世纪80年代中期由GeoffreyHinton（被称为“神经网络之父”）应用到神经网络。

后来又有了大模型，NLP（自然语言处理）及聊天机器人都到达了一个新的发展高峰。即便如此，人们对机器聊天人的看法停留在“情商”还行、“智力”明显不足的层面。

业界有一个观点是：过去的30多年中人工智能并没有任何重大的概念进步——目前我们在人工智能研究和媒体上看到的大部分内容都是通过大量昂贵的计算硬件和复杂的公关活动渲染出来的。

但ChatGPT的出现改变了这一局面。对NLP（自然语言处理）并不了解的公众在使用ChatGPT后，好奇的是它如何做到“像人”的？使得ChatGPT完成“智力”飞跃的是一套“使用人类反馈指令来训练语言模型”的方法。

这套方法是由2022年初推出的InstructGPT率先采用的。

OpenAI团队聘请了人类标注员依据收集到的用户需求撰写精准范本，为机器示范如何做回答，并对模型生成结果进行人工微调。随后，接受完调教的机器会“考试”，也会被打分。最后，机器会在不断的“考试”中，逐渐习得人类的语言能力。

“以前的做法是让机器忘掉人的智慧，然后超越人，今天的做法是让机器学习人。核心的关键词就是语言AI。自然语言处理是人工智能皇冠上的明珠，就是因为语言所包含的这样一个内容去理解它是特别大的难题。OpenAl非常巧妙的是找到了新的一种方法，能够把整个互联网的语言都学会了，我们称为叫语言模型。”王小川对《AI光年》分析。

这些看着微小的进步，OpenAI需要付出巨大的成本。据《财富》杂志报道，OpenAI2022年的收入预计不足3000万美元，净亏损总计为5.445亿美元。

“通用大模型的训练成本，我们预估的大概10亿美金左右，这仅仅是算力部分，还没算另外两个很花钱的部分，一个是数据，一个是人力成本，现在全球大模型领域的人才，是非常稀缺的。”将门创投创始合伙人、前微软创投大中华区负责人杜枫博士告诉《AI光年》。

当然，业界对于ChatGPT的反应并不一致。图灵奖得主杨立昆是Meta首席科学家，他对ChatGPT的评价是，“就底层技术而言，ChatGPT并不是多么了不得的创新。虽然在公众眼中，它是革命性的，但是我们知道，它就是一个组合得很好的产品。”

大模型仍有幻觉。“ChatGPT的论证过程也是一本正经的，但其实是在胡说八道，比如网友问，“如果你是《红楼梦》中的贾宝玉，你会选择谁做老婆”，ChatGPT给出的结果是“会选择贾母做我的老婆”。”小冰公司CEO李笛告诉《AI光年》。

理想上慢一步落地上快三步

ChatGPT引发的全球性热潮在重塑整个产业链。中国的大厂也做了迅速跟进，一些互联网老兵——闫俊杰、王小川等，互联网大厂的中高层，再加上一些学院派的科学家，纷纷加入这波大模型创业浪潮。

在王小川看来，中国需要迎头赶上，现在也不算太晚。“追上ChatGPT3.5水平，我觉得2023年内可能就能够实现，但对于ChatGPT-4或者ChatGPT-5，我认为可能需要3年左右的时间，应该不会低于两年。”王小川曾对《AI光年》表示。

“我们比OpenAI的理想慢一步，落地快三步。”王小川表示。AI发展到何等地步了？它正在如何重塑千行百业，AI应用落地距离现实越来越近了。那么，它将把我们带向何方？我们究竟应该以何种态度来面对AI？

中国在落地场景上的优势在央视《2024中国·AI盛典》得到了具象化展示：AI修复永乐宫壁画、AI兵马俑和古人形象、AI数字熊猫、AI物流应用、AI农业应用、AI服装设计、AI家电智造、无人机巡检、AI修复老照片老视频和AI机器人。

在山西永乐宫壁画的修复中，为解决永乐宫壁画“修复难”问题，依托AMD的计算引擎，生数科技基于多模态大模型的图像生成能力，让AI学习壁画的专业美术知识，实现壁画内容的高效自动修复。

生数科技CEO唐家渝告诉《AI光年》，“我们公司从创立的第一天起，就是用的Diffusion Transformer的架构，是跟Sora底层这个DIT其实是几乎一样的架构。”

“另外一方面像Diffusion这种为主的架构，我们把Diffusion跟Transformer结合了这种Diffusion Transformer架构，它本质上还是一个扩散模型，它比较强的在于生成的部分，这种视觉类的一些生成，都能做的比较好。”唐家渝阐述。

由于大规模本土化的知识训练，生数科技的自研图像生成模型对壁画等中国元素具有较强的理解和生成能力。在此基础上再引入专业的壁画与美术知识，对大量古代壁画的图像数据进行针对性的裁切和标注，对模型进行训练微调，让模型从色彩、笔触、人物造型等方面学习到永乐宫壁画的独特绘画风格，进而实现自动修复。

而AI兵马俑和古人形象，这场表演背后的“复活召唤术”，叫EMO，来自阿里通义实验室。一张照片和一段音频，EMO就能让静止的形象衍生出逼真的演唱视频。实际上，早在今年2月，通义实验室就公开了EMO（EmotePortraitAlive）相关论文。

目前，AI领域达成的共识和技术难点：sora已经可以生成60秒视频，而市面上都是3-5秒的视频生成模型。7月22日，快手视觉生成与互动中心负责人万鹏飞在中科大北京校友会的活动上分享：“得益于算法和工程的深度联合优化，可灵模型现在生成的视频长度从5S提升到10S。”

而通义实验室专注攻克的难点是：基于音频驱动的人物视频生成。不同于常见生成式AI的玩法，EMO基于音频驱动的人物视频生成是从音频跨越到视频模态的生成过程。这种视频的生成涉及头部、眼部、唇部等一些动作和多个要素，且在保持视频内容的一致性和流畅度外，也好符合一定的物理规律。

通义实验室应用视觉团队负责人薄列峰表示，EMO的关键创新点“弱控制设计”很好地解决了上述问题。无需建模就可驱动肖像开口说话，不仅降低视频生成成本，还大幅提升了视频生成质量。

据悉，通义实验室研究团队为EMO模型构建了一个庞大而多样的音视频数据集，总计超过250小时的录影和超过1.5亿张图像。并在此基础上进行了训练，不仅能够找到音频中具体发音与人像口型的匹配关系，并将音频暗含的情绪色彩反映到了人物微表情上。

众所周知，OpenAI的sora视频生成背后的技术框架是基于Transformer架构的新型扩散模型DiT，但EMO并不是建立在类似DiT架构的基础上。

“全真大熊猫”是国家林业和草原局、中央广播电视总台联合腾讯公司发布全球首只数字大熊猫，依托于腾讯的混元大模型，让它拥有强大的语义理解和逻辑思维能力，“全真大熊猫”不仅能与用户挥手打招呼、聊天、科普，还解锁了翻跟斗、扫地等一系列萌趣可爱的动作。

腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预训练语料超2万亿tokens，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。

据腾讯集团副总裁蒋杰介绍，腾讯混元大模型从第一个token开始从零训练，掌握了从模型算法到机器学习框架，再到AI基础设施的全链路自研技术。

此外，腾讯以游戏科技高拟真建模技术，对“全真大熊猫”超过200万根毛发进行复杂的几何细节处理，使毛发的质感、纹理与动态过程更接近真实。同时，腾讯根据熊猫真实的生理结构，通过智能骨骼绑定、“超3A影视级”高精度生物体渲染，使得大熊猫仿真重现。

“在应用这块，中国在AI应用上的创新一直是比美国领先的，因为中国的应用场景多数据多。”朱啸虎在接受《AI光年》采访时表示。

当下，AI以势不可挡的姿态向我们每个人的生活袭来，“认知革命”就显得非常重要，而主流媒体的理念引领、知识普及更是不能缺失。

中国电影家协会副主席、清华大学新闻与传播学院教授尹鸿认为，《2024中国·AI盛典》是一个面向未来的科技传播窗口，也是一次“科技艺术”的创新实验。节目展现了人工智能在各行各业的广泛应用，也有修复、重现、互动、沉浸等各种传播形态，使得科技传播有了温度，有了艺术的感染力。

“《2024中国·AI盛典》不仅在爆炸般的信息中为观众梳理了关于人工智能最真实有效的内容，更以创新有趣的表达方式，带领大家快速走进AI，拉近科技与公众的距离。这对于AI在我国健康有序发展起到了很好的基础性作用。”中国科学院自动化研究所研究员、联合国人工智能高层顾问机构专家曾毅表示。

未来已来无人能置身事外

98岁老人张长禄与26岁的青年张长禄“相遇”在被AI还原的视频中——“1952年奥运会，新中国的第一支代表团亮相奥运会场，那个手持国旗，意气风发的旗手叫做张长禄。”从1952到2024，时间已经整整过去了72年，老人看到短片禁不住热泪盈眶。

借助AI技术，“两弹一星”功勋钱学森先生也出现在大屏幕上，跟着孙悟空去往天宫，实现他儿时最大的梦想，并在中国空间站“遇见”航天员杨利伟和王亚平，让观众再一次“眼见为实”，感受到中国科技界的群星璀璨。

央视这场盛典也展现了其实AI不止于AIGC(ArtificialIntelligenceGeneratedContent/AI-GeneratedContent）译为人工智能生成内容，AI也在实实在在得改变产业界。

央视的镜头也展现了AI赋能实体经济，助力乡村振兴的多元应用。新疆尉犁县，因为有了遥感无人机、农业无人车等各司其职的智慧农业系统，只需两个人就可以把3600亩高标准农田管理得井井有条。

无论是青岛海尔冰箱灯塔工厂，还是江苏无锡国内最大的机器人自动拣选智能舱，或者是粤港澳大湾区首个5G智慧港口妈湾港；有序、高效的智能物流场景，都有着“科幻大片”照进现实的震撼。

而在小冰的CEO李笛看来，“人工智能对我们普通人来讲最大的改变，不是绘画，不是ChatGPT，是手机所对应到的计算摄影，使得手机拍出来的照片，比自拍好很多，我认为这是更有价值的，但不那么有魅力。”

当下AI还处于早期，但未来已来，在新的技术浪潮中，无人能置身事外。

200多年前，摄影技术刚诞生时，画家们也是眼睁睁看着照相机攻城略地，法国著名设计师保罗·德拉罗也留下了那句经典的论断：“从今天起，绘画死亡了。”但历史的车轮呼啸而过之后，现如今绘画和摄影仍各安一隅。

当AI技术进入图像生成领域，历史似乎进入轮回，大批设计师面临失业。对大多数设计师而言，离开还是留下，是个生存问题。时代的一粒沙，落在每一个设计师个体的身上，就是一座山。这是硬币的一面——残酷和暴力。

而硬币的另一面则是——颠覆、平权和拥抱。

“AI让很多普通人都有了设计能力，通过精准的描述就可以出一个不错的艺术作品，它提供的是一个平权的能力；而设计师利用好AI的话，就有了效率平权的机会，其设计上限会更高，他们可以依靠AI蜕变成超级个体。”视觉创意平台站酷创始人梁耀明告诉《AI光年》。

不仅仅是设计师，在新的技术浪潮中，无人能置身事外。高盛的一份报告显示，人工智能可以取代3亿个岗位，OpenAI研究人员发布论文显示：约80%美国人的工作将被AI替代。

AI真的会取代很多人的工作吗？联想集团董事长兼CEO杨元庆认为，每次技术进步都会打破很多“旧饭碗”，也会诞生更多的新机会。

“世界上最颠覆的技术是叠加，而不是取代。”中国工程院院士、之江实验室主任王坚认为，人类的处境首先是“共存”，和大自然共存，也要和我们自己创造出来的东西共存；然后是“叠加”，人工智能叠加人的智慧，将为创造新生活带来更好的机会，其意义大过第一次航海，也大过第一次离开地球。

人类历史上每一次技术革新，都是“兴奋”与“焦虑”同在，“期待”与“抗拒”交织。

“AI取代人类的工作，这个周期拉长到5-10年去看，还是很有意义的，想想20年前互联网时代来临的时候，想想第一次工业革命到第二次工业革命，周期拉长之后发现每个人的生活都发生了翻天覆地的变化，工业革命多数人背井离乡，到城市，再到公司的格子间。其实每一次大的变革本质都一样。”爱分析创始人兼CEO金建华告诉《AI光年》。

在这个变革过程中，有的人可能在反抗，有些人在拒绝，他们想保持自己的生活状态，破晓未来生成式跨越认知鸿沟光年从每一次的变革历史证明中可以看出，每个人到最后是不得不拥抱。金建华认为，这个过程中是积极拥抱，还是在焦虑和恐慌不安中接受，本质是大家如何更好得面对这件事情，这是一个可以花10到20年去研究的课题。

而关于更久远的未来，AI想要达到钢铁侠的智能管家“贾维斯”的效果，还有很长一段路要走。“贾维斯”是一套集合了大数据分析、自动驾驶、语义分析、云计算等多种技术的智能平台。人工智能的产业链，分为基础层、技术层和应用层。

AI什么时候才会像人一样思考？中国工程院院士、鹏城实验室主任高文认为：”要真正实现通用人工智能，可能要到2060年。”