1764年的一天,“珍妮纺纱机”诞生在英国一个织工哈格里夫斯的家中,将织布效率提高了八倍,吹响了人类进入机器时代的号角。很快,这股“机器之风”就吹到了采煤、冶金、制造、交通等各个领域。
一项技术能够将它的触角延伸至各行各业,靠的是其底层通用性。正如百度CTO王海峰所说,深度学习具有很强的通用性,呈现出标准化、自动化和模块化的工业大生产特征。在以人工智能为核心的第四次工业革命中,也正是深度学习技术的通用性打开了AI走向大规模落地应用的空间。其中,深度学习框架平台和大模型承担了技术基座的角色,被委以AI时代基础设施的重任,前者是让各类神经网络在不同硬件条件下高效执行的枢纽,后者则使用预训练技术适配各类上游任务。
进入2023年,深度学习下一个黄金十年的列车将驶向AI工业大生产时代,我们要如何穿过迷雾、找到AI技术创新和产业落地的最佳路径?在深度学习领域有着十余年技术积淀的百度,及时地给出了一个答案:“深度学习+”。
在今天的百度Create AI开发者大会上,百度CTO王海峰发表了题为《“深度学习+”,创新发展新引擎》的主题演讲,他提出:人工智能的技术创新和产业发展,已经进入“深度学习+”阶段。
王海峰在百度Create AI开发者大会上
王海峰揭示了“深度学习+”的“+”在三个层面的内涵:
技术角度,是深度学习+知识;
生态角度,是深度学习+上下游生态伙伴;
产业角度,是深度学习+千行百业。
AI走向规模化的大生产,这三个层面缺一不可。
01知识:AI是通才,也是行业专才
过去几年,深度学习模型在视觉、NLP、语音等各领域已经取得了巨大成功,但业内的一个普遍共识是,目前模型还存在可解释性差、通用性不强的弊病,模型的性能也还有很大的提升空间。
一个关键原因就在于,模型在学习过程中缺乏先验知识的输入。这从技术上筑起了一道墙,拦住了AI走向大规模产业化的路。
在王海峰看来,深度学习+知识,是AI技术进一步发展的重要方向。
人类的推理能力依赖知识,知识凝结了人类千百年来的智慧,捕获和识别领域知识并将其编码到模型当中,提升模型对于知识的记忆和推理能力,这种知识增强的深度学习范式更为接近人类大脑。
在AI的大模型时代,为智能注入更多智慧,这正是百度走出的一条与众不同的大模型路线。
2018年,谷歌发布语言模型BERT,在NLP领域掀起了预训练模型的技术革命。百度则是国内最早一批占领高地的机构,2019年3月,百度发布并开源了国内首个知识增强的语言模型文心ERNIE 1.0,它在语言推理、问答匹配等各类中文语言任务上的性能超过了BERT。通过引入知识图谱,将海量数据与多源的丰富知识相融合,模型的学习效率大大提高,可解释性也得到了增强。
这先行的一步,背后是百度在NLP领域深厚的技术积累,早在2010年,国际顶级NLP专家王海峰加盟百度后,就牵头成立了国内第一个NLP研发部门,如今也在大模型上发力最早。
到了今天,文心系列大模型的参数规模最高已经进化到千亿级别,在语言理解、文本生成、跨模态语义理解等领域取得了多项技术突破。百度沿着“深度学习+知识”这条路线,走出了大模型的差异化道路,并且已经走得很稳、很长远。
百度文心大模型发展历程
纵观国内各家大模型的发展,与其他玩家相比,百度更早地从拼参数的盲目风潮中抽身,确立了文心的另一个“杀手锏”:产业级。
这背后遵循的依然是“深度学习+知识”的逻辑:在AI走向大规模产业化的过程中,大模型在具备通用知识的同时,必然还要向各行各业“拜师学习”,进而成为精通各领域的“专家”。
所以,“+知识”加的不仅是科学知识、经验知识,还要有行业知识。
为了填补基础模型与应用场景之间的鸿沟,在文心通用大模型的基础上,百度与多个领域的头部企业和机构合作,运用行业知识增强技术,首次把各个行业的特有数据和知识融合到大模型中,将大模型的能力适配和延展到了能源电力、金融、航天、传媒、影视、汽车、城市管理、燃气、保险、电子制造和社科等多个领域。
百度的11个行业大模型,勾勒出了未来AI工业大生产图景的雏形。
百度文心行业大模型
目前来看,大模型的产业化尚任重道远,而2022年AIGC赛道的火爆,则给我们指明了眼下大模型落地最为清晰的一个路径。
OpenAI于去年4月发布的文生图模型DALL·E 2打响了AI绘画热潮的第一枪,随后Stability AI在8月推出开源的Stable Diffusion模型,让AI绘画的圈子彻底沸腾起来。
而在Stable Diffusion上线前三天的8月19日,百度就发布了一款AI绘画产品——文心一格。它基于文心大模型的技术,能够根据文字生成多种风格的高清画作,是普通人进行高质量艺术创作的一支“神笔”。而长远来看,AI作画在toB端有着更为宽广的场景,在解决了版权、生成的可控性等难题后,像文心一格这样的工具在移动内容生产、游戏、工业设计等场景都会有广泛的应用。
文心一格官网
AIGC巨大的想象空间植根于大模型的跨模态能力。多模态学习是深度学习在下一个十年的重点方向,如同人类能从一段文字描述中构想出一幅画面,模型融合了语言、视觉等多模态知识后,可具备跨模态生成的能力,文生图、文生视频都会是未来大模型的风口所在。
这也便是“深度学习+知识”这一概念在模态层面的延展。