2012年深度学习元 年以来,AI进入学术和商业界发展新阶段,2017年大模型路线以“通用智能”思路降低算法边际成本,逐渐成为学界与产业共识。2022年下半年,AIGC及ChatGPT关注度大幅提升背后,我们认为其本质是弱人工智能到强人工智能的阶跃,海外及国内商业落地处在初期,但我们认为新的产业趋势值得关注。OpenAI的技术进展及投资方向、海外AI独角兽业务进展、国内龙头AI公司的跨模态布局是重要风向标。

技术层面,ChatGPT和AIGC的持续升温依托于大模型的技术红利。从2012年的深度学习 元年以来,各界产生了海量的数字化需求,大模型技术路线是降低边际成本的核心,2017年大模型(Transformer)路线逐渐成为学术界与国内外巨头的发展共识。ChatGPT由GPT-3.5大模型加入基于人类反馈的强化学习训练而成,带来弱人工智能向通用智能的阶跃。

商业层面,以OpenAI投资方向为风向标,落地仍在探索期,跨模态打开场景空间。对于AIGC领域,AI作画等跨模态应用是未来的发展趋势,全球范围内AIGC独角兽已初步具备B端为主的变现能力,海外落地节奏显著快于国内。ChatGPT推出后,海外已有早期合作案例,例如为BuzzFeed提供个性化测试、为Amazon解决客户和工程师技术难题等。此外,以OpenAI前沿投资方向为锚,我们认为文本到图片/视频的跨模态生成、垂直领域AI写作、智能笔记、AI语言学习平台或为潜在落地方向。

展望未来,行业格局有望走向底层集中、垂类多点开花,MaaS是商业模式演进的潜在方向。我们认为,ChatGPT为代表的模式背后,成本、算力、场景、数据等多维度需求铸就高门槛,大模型路线下,未来行业格局趋向集中,泛化通用大模型能力的厂商有望呈现多强格局;关键垂类仍可能有场景、数据优势,精细调优后的垂类模型仍有差异化竞争潜力。展望未来的商业模式,我们认为以海外Hugging Face为代表的Model-as-a-Service是潜在方向,具备大模型基础的龙头有望成为AI开源基础设施提供商、社区生态建设者。

正文

技术篇:ChatGPT和AIGC持续升温背后,本质上是大模型的技术红利

ChatGPT和AIGC持续升温的本质是背后的AI大模型进入新范式。ChatGPT是基于GPT-3.5的IntructGPT,基于人类反馈的强化学习(RLHF)训练的语言类大模型。本文梳理了ChatGPT背后的技术演进与应用落地节奏,并对未来AI行业的格局加以展望。

2012年是深度学习 元年,以Hinton团队在ImageNet大赛中引入深度学习算法为重要节点。Hinton带领的团队在ImageNet挑战赛中,通过构建深度神经网络AlexNet成功将图片识别错误率降低了10.8pcts,以大幅超越第二名的成绩夺冠,证明了深度学习的发展潜力,开始被业界和资本关注。

图表1:AI从引起业界广泛关注到目前不足10年

资料来源:量子位,Omdia,中金公司研究部

早年业界一度认为小模型、小算力是方向。此前的共识是通过精妙的算法和更高的模型精度,减少对算力的需求,但行业落地实践证明其短板明显:

► 精妙模型路线导致重复研发,无法让AI赋能千行百业。在AI公司进入大量新场景时,对每个场景都重复研发大大增加了边际成本。

► 精妙模型路线无法解决长尾场景,完善AI商业化价值闭环。以份额占人工智能行业近一半份额的智慧城市为例,其中的长尾场景如防火防灾、电梯事故、垃圾乱扔由于研发难度高,大部分AI公司难以低成本解决,严重影响到客户对整套解决方案买单的意愿。

图表2:目前AI模型的神经元总量与人类差距较大

资料来源:阿里云《中国企业2020:人工智能应用实践与趋势》(2019年),中金公司研究部

技术演进视角,大模型是实现通用AI的重要方向。虽然距离完全达到人类智能水平的AI,还有很长一段路要走。但近几年在长尾场景等问题导致了对更通用的人工智能的刚需,在国内外巨头纷纷投入大量资源攻克通用人工智能难题的推动下,通用的语言模型、视觉模型甚至多模态模型也开始逐渐取得突破。2020年OpenAI推出1750亿参数的GPT-3大模型是行业重要里程碑,为后续大模型迭代、加入人为干预,以及AIGC、ChatGPT的推出打下技术基础。

图表3:大规模预训练模型对于算力需求呈指数增长

资料来源:英伟达官网,中金公司研究部

过去的深度学习在CV(计算机视觉)领域大放光彩,但本质上还是更多的解决感知问题。CNN(卷积神经网络)已经能够较好的解决常规的人脸识别、物体识别问题,但在NLP(自然语言处理)领域,对于物体、概念的抽象理解、语义的识别和理解,乃至推理和逻辑仍然是巨大的挑战。Transformer算法(大模型路线)在NLP领域成果卓越,催化NLP的能力从简单的感知,向深层次的理解乃至推理不断发展。

图表4:模型的参数大小在不断提升,性能也在与时俱进

资料来源:Jordi Torres.AI,中金公司研究部

图表5:AI的能力也在从感知向理解、推理、生成攀爬

资料来源:中金公司研究部

基于具备一定通用性的大模型,通过少量的增量训练蒸馏出小模型,是解决长尾问题的关键技术架构。从模型训练到部署,需要通过剪枝、量化、蒸馏等模型压缩技术实现更高的经济性及快速推理。以蒸馏为例,可以将结构复杂、参数规模庞大的大模型,压缩成结构简单、易于部署的小模型,相比于直接生产的小模型,大模型蒸馏出的小模型具有更强的泛化能力,边际成本大幅降低。

大模型+小模型的方式能有效降低AI落地边际成本。由于避免了“手工作坊”式的AI生产方式,不需要每做一个项目就派出大量专家花数月驻场收集数据、调试模型、训练模型,并且对长尾场景的解决为客户创造了更多价值。用足够多的数据和足够大的算法去训练一个足够大的通用模型,再通过量化、剪枝、知识蒸馏等模型压缩方法把大模型变小,高效的进行模型生产,并且由于算法足够多,能够覆盖各种长尾场景,大大降低了复制成本。因此我们认为,大模型是未来AI行业的必然趋势。

图表6:蒸馏技术是类似于老师-学生传递知识的过程     

 

资料来源:ICCV2019,华为云,中金公司研究部

2020年超大模型GPT-3发布,衍生出DALL·E与CLIP模型。随着GPT-3在多个自然语言处理基准上展现超强性能,该模型延伸至图像领域,衍生出匹配文字和图像的CLIP模型,以及由文字生成图像的DALL·E模型。2022年4月,OpenAI推出DALL·E 2,基于CLIP和Diffusion模型,分辨率提升了4倍,准确率更高,业务更广:除了生成图像,还能二次创作。

图表7:GPT-3衍生出DALL·E与CLIP模型 

资料来源:OpenAI官网,中金公司研究部

Stable Diffusion由Stability AI公司提出并于2022年7月开源,是AIGC热度提升的重要驱动力。Stable Diffusion的重要贡献在于使用空间降维解决内存和模型推理时长痛点,采用Latent Diffusion Model (LDM) 方式,在模型复杂度和图像质量之间达到平衡。Stable Diffusion不仅使用户仅在消费级显卡上就能够快速生成高分辨率、高清晰度图像,而且建立开源生态,大大降低用户的使用门槛。

图表8:Diffusion模型原理示意图

 

资料来源:Stability.AI,中金公司研究部

图表9:Stable Diffusion模型原理示意图

资料来源:CVPR 2022《High-Resolution Image Synthesis with Latent Diffusion Models》,中金公司研究部

2022年11月30日,OpenAI发布了语言大模型ChatGPT,通过大规模预训练(GPT-3.5)和自然语言生成技术实现多轮对话问答。该模型以对话的形式与用户进行自然交互,核心方法是基于人类反馈的强化学习(RLHF),能够实现“回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求”的能力。

图表10:ChatGPT拥有智能问答、多轮对话的能力 

资料来源:ChatGPT,中金公司研究部

图表11:InstructGPT公开API后用户的使用功能和频率

资料来源:《Training language models to follow instructions with human feedback》(OpenAI,2022),中金公司研究部

ChatGPT基于IntructGPT模型思路,在GPT-3.5基础上进行微调,在数据源选择与数据标注领域进行优化。ChatGPT仅仅在训练数据和微调模型(GPT-3.5)方面与InstructGPT不同,其余的训练流程和方法二者相同。相较于GPT-3的训练集只有文本,ChatGPT的训练集基于文本和代码,新增代码理解和生成的能力。目前,OpenAI仍未公布ChatGPT的论文,但根据其主页可以得知它的方法与InstructGPT相同,本文从InstructGPT 展开技术路径:

图表12:InstructGPT主要训练流程分为三步,搭建有监督SFT模型、强化学习模型

资料来源:《Training language models to follow instructions with human feedback》(OpenAI,2022),中金公司研究部

第一步:OpenAI采集了基于prompt(即大量的提示文本)训练方式的数据集,提示训练模型“问题在此开始”,并详细说明了下游任务。将此数据集交给约40人的专业团队标注人类希望得到的回答,并以该训练集进行监督学习微调GPT-3(参数数量为175B),得到微调后的模型SFT。(ChatGPT微调的模型是未公开的GPT-3.5,比GPT-3参数量级更大)

第二步:将第一步中的数据和GPT-3训练集的一部分数据混合,使用微调模型SFT进行预测,对每个输入得到N个结果,此时专业人员会根据选项的好坏对其进行排序,并把排序后的数据用来训练奖励模型(RM)。

第三步:使用PPO的强化学习方法更新参数,使用SFT再预测一次数据集的结果通过第二步的奖励模型进行打分,计算奖励(reward)。最后将奖励分数通过PPO返回SFT进行训练。

图表13:AIGC关键技术突破时间轴所示,GAN带来生成模型雏形,GPT等NLP大模型是通用智能的技术基础

资料来源:OpenAI官网,《Denoising Diffusion Probabilistic Models》(Ho et al. 2020),中金公司研究部

生成对抗网络GAN不断演进,助力AI生成图像逐步完善,为AIGC兴起的原始思路。GAN (Generative Adversarial Networks,生成对抗网络) 于2014年提出,主要原理为,将两个神经网络(生成网络和判别网络)相互对立,以提高模型输出结果的质量。

通过GAN,计算机可以根据输入的文字描述、图像分割、草图、风格等生成实际不存在的图像,也可以将已有图片根据输入目标转化,肉眼几乎无法分辨真假。AI能够将输入的简易指令转化为图像等复杂生成结果,具备支撑AIGC的技术条件。

GAN是AIGC发展的基础框架,但技术方面仍有多处不足。在AIGC由学术界实验室向应用导向的过程中,生产者对于图像生成的质量、分辨率提出更高的要求,GAN的不足之处体现在:

一方面容易生成随机图像,对结果的掌控力较差,另一方面是图像分辨率较低,能够支撑宏伟图景、难以满足细节要求,此外,生成过程中依赖对原有图像数据的模仿,缺乏创新性。

基于以上不足,AIGC发展在学术界、应用界均遇发展瓶颈。

Transformer大模型的计算并行性奠定了网络规模数据集训练的模型中的最高地位。2017年谷歌提出Transformer模型,其并行化的语言处理方式使得并行计算的效率得到大幅的提升。

基于Transformer模型,OpenAI于2018年首次提出了GPT模型,能够在无监督的情况下进行训练,在大语料场景下能够显著的改善模型效果,正式将NLP(自然语言处理)带入预训练时代。

CLIP模型(Contrastive Lauguage-image Pre-training)由OpenAI提出并在2021年开源,图像-文本对应能力为AIGC提供落地基础。

CLIP是以文本为监督信号来训练可迁移的视觉模型,是多模态领域的重要推动力,主要价值在于具备强大的特征提取能力,基于互联网搜集的数十亿张图片及文本信息进行训练,能够实现将任意图像和文本信息配对,为AIGC的主流应用由文本生成图片和视频奠定多模态应用基础。

Diffusion扩散模型在2022年以多维度技术优势进一步推动AIGC应用。2015年,Diffusion模型最早在ICML的论文《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》被提出,2020年由Jonathan Ho等人在《Denoising Diffusion Probabilistic Models》中提出的DDPM模型引起了学术界更多关注。

模型本质分为前向扩散、反向生成两阶段,分别完成对图像逐步添加高斯噪声-随机噪声、去噪声的过程,相较GAN模型在数据量需求上更小,在生成任务效果上大幅超越GAN等传统模型。

DALL·E及升级版DALL·E 2项目基于CLIP和Diffusion大模型开发,AI具备依据文字进行创作的能力,AIGC作画领域落地进入快车道。DALL·E系统由微软注资的OpenAI于2021年1月推出,并于2022年4月更新至DALL·E 2,该系统基于CLIP和Diffusion关键模型建立,具备三种功能:

1)根据文本提示生成图像,2)以给定图像生成新图像,3)以文本编辑图像元素。

2022年7月,DALL·E 2开启邀请制公测,生成图像在关注宏伟场景的同时关注人物关系细节,是AIGC早期落地的重要标杆事件。

Stable Diffusion于2022年7月建立完全开源生态,是2022年AIGC落地门槛降低、应用热度进一步提升的又一重要驱动力。AIGC在2022年已经具备了CLIP开源文本-图片多模态模型基础、LAION开源数据库、Diffusion大模型算法框架创新,Stable Diffusion的重要贡献在于使用空间降维解决内存和模型推理时长痛点,以及2022年7月构建的完全开源生态。

部署在国内的二次元创作Novel AI模型即是基于Stable Diffusion模型发展而来,作画方式更为多元,包括文本生成图像、原画改写、简笔画生成等模式,出图质量较高,深受二次元爱好者的认可。至此,开源生态推动AIGC的数据、模型与算力问题初步解决,直接降低了使用者的门槛,渗透进多个垂直领域。

展望未来,AI技术逐步进入无监督学习时代,支撑AIGC的产业化发展。2012年以前,AI模型大多为针对特定场景进行训练的小模型,无法拓展至通用场景,且仍需要人工调参和大量数据来提升模型精度。随着技术发展,AI可以在图像、文本等多维度上实现融合互补,在无监督情况下自动学习不同任务、并快速迁移到不同领域。

例如,AI驱动虚拟人可以利用现实人脸及声音等多维度数据生成形象,GAN、Diffusion模型可以通过文字、图像等数据进行多模态创作。我们认为,AI技术已呈现出能稳定支持内容生产的发展趋势,未来有望突破“小作坊”式生产,助力AI内容生产进入工业化时代。

商业篇:以OpenAI投资方向为风向标,落地仍在探索期,跨模态打开场景空间

在深度学习模型支撑下,早期AIGC在文本生成领域开启内容创作落地,逐渐向音频生成、图像生成等领域推广。深度学习带来AI在学术和应用落地领域的分水岭,大模型进一步将应用接近认知智能。2014年起,AIGC在文本理解、结构化协作领域小范围应用,按照特定模式提取情感语义,或按照框定模板生成结构化内容。在2018年NLP领域BERT、GPT系列大模型出现后,非结构化协作等高自由度创作具备落地空间。此外,AIGC在音频-音频生成、图像-图像生成和视频-视频生成创作等领域跨越落地门槛,在单模态发展中呈现多点开花局面。

图表14:AIGC应用全景图一览

资料来源:量子位智库,中国信通院,Tom Mason,OpenAI官网,中金公司研究部

DALL·E 2是一个由OpenAI开发的人工智能模型,它具备三种功能:1)以文本提示生成新图像;2)以给定图像生成新图像;3)以文本编辑图像元素。DALL·E 2的使用方法很简单,用户只需在软件提示框中发送文字提示或图像修改文字,或选择给定垫图,AI便会根据输入生成结果。用户可以随意输入想要表达的内容和所希望的艺术风格,DALL·E 2可以模仿许多知名艺术家的风格,并准确地描绘动物和人物,并表达他们之间的关系(例如打架或聊天)。

DALL·E 2目前采取付费购买次数的商业模式:加入Open Beta项目后,首月可以获得50个免费点数,每一个点数对应一次绘图,之后每个月可以免费补充15个,测试第一阶段的价格是15美元115个点数。花费点数生成图像后,用户将获得使用DALL·E创建的图像商业化的完全使用权,包括重印、销售和商品化的权利。

图表15:DALL·E 2 通过文字添加图片元素

资料来源:DALL·E 2官网,中金公司研究部

图表16:DALL·E 2通过文字输入生成图片结果示例

资料来源:DALL·E 2官网,中金公司研究部

全球范围内AIGC独角兽已初步具备B+C端的变现能力,但海外公司明显领先于国内。AIGC应用层可分为图像、文本、视频、音频,海外AIGC企业如Jasper、Grammarly等已经积累大批用户群体,年收入超千万美元;大部分企业都至少启动了A轮融资,融资金额相对较大。

图表17:全球AIGC应用层企业梳理

资料来源:鲸准,中金公司研究部 注:统计时间截至2023年1月29日

而国内相关技术企业进展较慢,参与方以应用层为主。要提高国内AIGC独角兽发展速度,必须加快基础层建设,提高核心竞争力,同时找到更好的商业模式并具备变现能力。

图表18:国内AIGC应用层企业梳理  

资料来源:鲸准,中金公司研究部 注:统计时间截至2023年1月29日

ChatGPT具备强大自然语言处理、多轮问答能力,可落地于广泛的应用场景。ChatGPT将在未来投入商业化领域,通过强化的上下文理解能力,优化银行、电商等客服机器人,生成商品描述和营销文案,以及协助翻译工作,大大提高服务质量。目前,ChatGPT已经成功在海外市场得到了应用,为BuzzFeed提供了个性化测试,并帮助Amazon解决了客户和工程师面临的技术难题。

个性化测试:2023年1月,美国新闻聚合网站BuzzFeed官宣将依托OpenAI为其用户互动栏目Quizzes制作和个性化各种小测试。ChatGPT会生成一系列提问,再根据个人的回答产生用户独有的、可分享的文章。

不久前,Meta向BuzzFeed支付了数百万美元,以让BuzzFeed为Meta的平台生成内容,并培训平台上的创作者。

图表19:BuzzFeed利用ChatGPT个性化Quizzes推送内容

资料来源:BuzzFeed官网,中金公司研究部

嵌入微软全系列产品:2023年世界经济论坛期间,微软首席执行官萨蒂亚·纳德拉(Satya Nadella)在接受《华尔街日报》采访上时表示:微软将扩大对OpenAI技术的访问并把ChatGPT嵌入到微软各大系列产品,例如Bing、Office、Outlook等。

届时,ChatGPT将在搜索引擎、日常办公、收发邮件中发挥其智能的语言理解和问题解答能力,使生产效率更上一层楼。

OpenAI通过战略投资,产业赋能,加速ChatGPT在实际应用中落地。作为AI行业龙头OpenAI,公司不止自身持续开发出惊动业界的AI模型如GPT系列模型,而且创立基金投资于AI创业公司,不断拓宽AI应用边界,重塑人类的创造力、法律、生产力、教育等方面能力,这四大领域也构成了OpenAI在2022年的四大投资风向标。

音视频转文字,把繁琐的剪辑工作变得像编辑文档。Descript是一个像文档一样工作的编辑音视频的软件,包括转录文字、播客、屏幕录制等功能。其最大的特色功能是可以将音视频内容转录成文本,将文本中的每个词和媒体文件的时间戳对应,允许用户通过编辑这个转录的文本信息来编辑原始音视频。Descript主要功能如下:

转录:将音视频中的内容转录成文本,自动识别不同的讲话。按照分钟数计费,目前支持 22种语言;也可使用人工转录。

屏幕录制:支持快速录制、编辑和分享屏幕录制的视频,远程录制允许用户在使用Zoom等会议软件时调用Descript。

音视频编辑:1)删除:当用户删除词句,音频中对应的词也会被删除;2)生成(收购加拿大初创Lyrebird后推出Overdub功能):当用户通过打字添加文本,AI可以生成该用户的声音;3)一键检测和删除语气词:例如“um”、“uh”等大量重复使用的单词。

图表20:Descript操作界面:使用脚本编辑录音,添加场景来排列视觉效果

资料来源:Descript官网,中金公司研究部

图表21:Overdub:创建文本到语音的转换模型,或选择超逼真的库存语音

资料来源:Descript官网,中金公司研究部

Descript定位于协同编辑工具,根据团队用户数和每月转录时长进行收费。免费版每月有1小时的转录时长;Creator 版本每月10小时转录时长,定价12美元;Pro版本每月30小时转录时长,定价24美元。Descript目前已完成4轮融资,总融资额达1亿美元。2022年11月,OpenAI领投C轮5,000万美元融资,估值达5.5亿美元。

Harvey有望作为法律的自然语言接口,大幅减少简单重复的法律流程工作。Harvey是面向律师群体的AI助手工具,为法律工作者提供统一的、直观的操作界面。同时借助强大的生成式语言模型(主要为GPT-3)的能力,可以在律师的工作流程中帮助处理一系列繁杂的工作,如研究、起草、分析法律相关条文,使律师能够将更多时间花在工作中高价值部分。

Harvey目前仍处于内部测试阶段,但已受到OpenAI的关注和青睐。2022年11月,Harvey AI获得OpenAI的500万美元投资,Google AI负责人Jeff Dean、Mixer Labs联合创始人Elad Gil以及一批天使投资人跟投。本轮融资后,Harvey将正式向律师客户群体推出服务。

Harvey背靠OpenAI和微软,享受更多资源领先竞争对手。市场格局中,Casetext同样利用人工智能技术进行案例搜索,进行法律研究、摘要起草等工作。据OpenAI表示,Harvey将受益于与OpenAI的关系,能够提前访问微软的新OpenAI系统和Azure资源。

Mem作为一款轻量笔记工具,致力于打造“世界上第一款自动组织的笔记产品”,提高用户的工作效率与生产潜力。Mem主打快速记录与内容搜索,利用人工智能技术提供预测、自动整理笔记内容,并且允许用户添加话题标签、标记其他用户、添加定期提醒等。

目前,Mem为Twitter推出了Mem It应用,允许用户保存推文串,获得AI生成的内容摘要,并看到类似推文的建议。Mem的内置工作助手Mem X也得到进一步完善,增添了智能写作和智能编辑等新功能,利用人工智能根据提示生成文本、总结文件、为文件生成标题,并让用户使用自然语言命令来编辑或格式化文本。

Mem采用Freemium(免费增值)的定价模式,从个人用户向团队和企业版进行拓展。付费版Mem X套餐价格是10美元/月,在免费版基础上增加了AI的能力,能够自动整理和归类信息;付费团队和企业版则增加更多存储空间、团队管理能力以及安全性等内容,团队版的定价是15美元/月,企业版需根据具体情况定价。在OpenAI的支持下,Mem计划进一步开发人工智能驱动的功能和体验。2022年11月,OpenAI领投A轮2,350万美元融资,本轮融资中估值1.1亿美元,累计融资总额达2,900万美元。

从AI个性化角度出发,Mem与市场中常见的工作管理软件形成差异化竞争格局。工作协助平台Glean于2022年5月完成1亿美元的C轮融资,为SaaS企业提供一致的搜索体验,市值估值达10亿美元;Atlassian类似维基的协作工作平台Confluence适合于远程操作的团队工作,能够有效的融合知识与协作。Mem致力于生成式知识管理方法,其个性化机器学习模型超越简单的搜索与记录。

图表22:Mem操作界面:利用人工智能技术实时整理笔记

资料来源:Mem官网,中金公司研究部

图表23:Mem主要功能:九大核心功能打造自动组织的笔记

资料来源:Mem官网,中金公司研究部

Speak是具有人工智能功能的英语学习平台。Speak利用AI能力,开发了一系列对话内容,模拟了日常的各种场景和互动,通过和AI导师的互动来提高用户口语。其最大的特点是AI导师可以基于对话内容,提供实时的反馈,包括发音、语法、词汇等。

Speak主要通过提供自动续订的月度和年度订阅的模式盈利。Speak在韩国有近10万付费用户,2022年开设约1,500万节课程,ARR超千万美元。定价方面,Speak按年度订阅约100美元/年,按月付22美元/月。

Speak将训练新的语种,进一步拓展至韩国以外的市场。2022年11月,OpenAI领投B轮2,700万美元融资。下一步,公司计划拓展新的语种与市场(例如日本)并投资于利用文本生成模型的功能(例如GPT-3),加速开发新的对话语言体验。

市场格局方面,Duolingo是成熟的语言学习软件巨头。作为全球用户量最大的语言学习平台,Duolingo提供超过40门语言课程,目前月度活跃用户4,000万,付费用户190万,ARR达3.6亿美元。

图表24:Speak:提供真正的交互式口语学习体验产品

资料来源:Speak官网,中金公司研究部

图表25:最先进的AI语音技术:0.1s延迟,95%准确率,100%实时

资料来源:Speak官网,中金公司研究部

AI将人类从简单重复的任务中解放出来,专注于高价值、创新型的工作。通过解决密集型劳动、重复性劳动的痛点,AI正在逐步取代部分人工工作,给社会带来降本增效的价值。在未来,随着AI技术的不断提高,它将在更多的低脑力领域提供支持,从而帮助人们实现更高效的工作。

除了消除重复性任务,AI同样起到简化决策与提供新洞察等作用,提升决策的速度和效率。据Gartner预测,截至2023年,超过1/3的大型企业将使用决策智能实现结构化决策,随着决策智能成为业务流程的核心部分,决策制定得比以前更快、更容易,而且成本更低。例如,在医疗领域,AI技术已经成为支持临床诊断、疾病预测、个体化治疗等的重要工具;在金融领域,AI技术支持了金融机构快速、高效的风险评估、客户服务等。

图表26:AI在执行环节、低级别决策环节具备替代人工的潜力

资料来源:ARK,中金公司研究部

图表27:ARK测算:2030年,AI软硬件公司年收入总和有望达15.7万亿美元

资料来源:ARK,中金公司研究部

格局和展望篇:行业格局有望走向底层集中、垂类多点开花,MaaS是商业模式演进的潜在方向

低边际成本是大模型的优势,碎片化的需求成为降低成本难的关键因素。目前国内大部分AI工作是以项目制的形式进行的,落地还停留在“手工作坊”阶段,存在重复造轮子情况,边际成本高。而且目前大部分场景数据规范性差、长尾,且采集方法落后,导致工作量较大,严重影响AI大模型进展。

碎片化的本质原因在于现阶段AI模型的通用性低,单个模型只适用特定任务。例如,在工厂场景下检测零部件、在医疗图像中检测病理特征,虽然本质上都是检测,项目过程中都需要重新收集、标注数据、训练模型。由于客户需求多样,以至于几乎每个项目都要重复进行这一流程,研发流程难以复用,重度依赖人力,边际成本很高。

需求端:全社会的数字化是人工智能的重要目标,同时也意味着大量的建模需求。随着数字信息世界、物理世界融合,产生的数据量是以前的成千上万倍,监控和管理这些信息牵制了大量人力,未来需要大量的AI模型来处理这些信息。而大量的模型需求需要较高的AI模型生产效率、较低的算法边际成本。

供给端:AI技术相对较新,引起业界关注仅10年,人才培养不足,导致人才稀缺。从事AI技术研究与开发的人员有限,难以满足市场大量模型需求。此外,技术快速发展,技术人员和训练数据集也需要不断学习更新。

图表28:弱人工智能阶段长尾场景种类繁多导致项目碎片化

资料来源:量子位,中金公司研究部

AI行业不会向碎片化的方向发展,而是强者愈强,用大模型结合底层全栈自研来解决边际成本问题。在大模型路线下,AI模型的边际成本还会受益于三个因素的影响大幅降低:

底层基础设施可复用,降低边际成本。以商汤科技的AI大装置为例,公司多年累积的硬件、框架和AI算法和落地经验结合起来,一起融合到AI大装置,能尽可能的减少重复研发。

模型研发流程可复用,大模型提升AI通用性。在大模型压缩制造小模型的工业化生产方式下,AI公司可以生产大量的、覆盖不同场景的模型。这样,在遇到新场景的情形下,可以通过将原有的模型模块化组装,快速制造新模型,无需针对新场景再次定制化生产。

研发流程自动化(AutoML),开发门槛降低,人员成本降低。AutoML能自动执行AI流程中的大部分工程性任务,减少了AI模型生产过程中对人工的需求量,且由于机器学习门槛的降低,不再需要招聘深度理解AI工程的专家,使得开发人员的成本降低。

图表29:AutoML在数据、模型和优化三个环节减少对深度学习专家的依赖

资料来源:CSDN,中金公司研究部

ChatGPT基于GPT-3.5微调而来,该超大泛化模型对成本、组织力、工程壁垒、大算力和底层框架都提出极高要求。随着模型的不断扩大,模型训练和维护成本也在不断增加;在技术层面上,需要先进的底层技术和高效的框架来保证模型训练的稳定性和效率,而且构建的模型必须要有很高的泛化能力,这需要研发团队有相当高的技术水平和工程能力。

训练成本:对于训练基础模型GPT-3为例,训练一次所要消耗的成本高达近8400万元人民币。这不仅需要资本,也需要公司的组织力和战略支持。依赖于小规模团队的试验探索来创新不再可能。

标注数据:由于ChatGPT/InstructGPT模型训练使用的是prompt方法,在训练的第一步OpenAI雇佣标注师对1.3万条数据进行人工回答,同时在第二部分需要对模型给出的3.3万条答案进行排序。在论文附录中可以看到OpenAI对于人工标注数据的生成有诸多细节和心得。

强大算力:ChatGPT训练所耗费的算力大约为3640 PF-days,即假设每秒运算一千万亿次,需要连续运行3640天。训练大模型需要强大的算力,而优化大规模算力背后的技术底层框架需要深度定制和自主研发能力,这些因素都构成了诸多工程壁垒。

除了显性的成本外,场景、流量、数据壁垒和社会包容度所形成的隐性成本同样不可小觑。不同的场景需要专门的数据集,数据的获取和标记需要额外的成本;数据的质量、隐私和安全构建起数据壁垒;此外,公众对不同规模公司发布的新模型的包容度是不同的。

用户真实体验:除了标注人员需要标注,也需要用户通过测试API提出实际使用中的问题获取prompt,得到更多User-Based数据,缩小和用户需求的差距,不断迭代优化,该过程需要更高昂的数据清洗成本和时间成本。

基于场景反馈:ChatGPT/InstructGPT的核心创新点在于RLHF,这不仅局限于标注师的反馈,也需要实际用户使用中的反馈。例如Midjourney在用户使用中生成4张图像,用户的点选就会作为reward反馈传回公司进行迭代强化学习。找到场景、拥有流量,使得广大爱好者能够众包式的迭代模型,也是商业模式上的挑战。

社会包容程度:对于初创公司,这种内测模型更容易发布,用户包容度更高,但随着模型表现出色,用户期待值更高,未来再通过免费内测形式会遇到更多问题。例如谷歌、Meta都曾发布语言模型测试,但因数据质量层次不齐,输出结果有明显偏误,被迅速下架。

图表30:Midjourney生成图像用户反馈界面

资料来源:Midjourney官网,中金公司研究部

图表31:Meta发布的语言模型GALACTICA上线仅两天就因输出结果有偏误而光速下架

资料来源:GALACTICA官网,中金公司研究部

大模型路线下,行业格局必将走向集中。不同于深度学习的技术路线,大模型路线的高壁垒和“前期投入大,边际成本低”的模式决定了行业必将走向集中格局,缺少资源的中小参与者难以跟随技术发展的步伐。

在中长尾走向寡头市场,在关键垂类仍有Know-How的魅力。尽管行业走向集中,我们却并不认为行业会走向影视作品中一个超级人工智能统领全球的景象。在市场空间足够大的关键垂类中,Know-How和数据壁垒仍旧能够显著增加模型的表现,同时获得足够的经济回报。而在更中长尾的场景中,有泛化多模能力的超大模型将呈现多强格局,滋养诸多的ISV在其基础上搭建应用,或者进一步调优。

图表32:我们预测的未来格局

资料来源:中金公司研究部

图表33:InstructGPT论文显示:经过知识调优后的小参数模型效果远超未调优的大模型

资料来源:《Training language models to follow instructions with human feedback》(OpenAI,2022),中金公司研究部

目前ChatGPT还没有明确的盈利商业模式,但我们认为MaaS是一个潜在方向。未来的商业模式可以参照Hugging Face践行的AI开源社区模式以及潜在方向:模型即服务Model-as-a-Service,即Hugging Face提供的AutoTrain和Inference API & Infinity解决方案。MaaS将模型训练、维护和部署的过程转移到云服务上。这样的方式不仅提高了效率,还降低了客户对模型开发和维护的依赖,使其能够更加专注于业务上的投入。

图表34:Hugging Face商业模式

资料来源:元宇宙官网,中金公司研究部

商汤科技是国内领先的人工智能公司,其自主研发的AI基础设施SenseCore,实现了通过AI平台化赋能百业,商业模式类似MaaS。与传统的AI技术不同,商汤把人工智能的核心底层基础设施、软件平台和应用层打造成了一个通用的生态系统,可以被各种应用程序和服务轻松使用,而不需要对模型进行专门的开发。这种模型即服务(Model-as-a-Service)的架构,可以帮助企业更快速地实现人工智能的价值。

图表35:商汤建立了包括底层基础设施、AI软件平台及应用层平台的AI生态系统

资料来源:弗若斯特沙利文,商汤科技,中金公司研究部

本文来源:中金公司,本文作者:赵丽萍,于钟海,魏鹳霏,原文标题:《AI十年展望(五):从ChatGPT到通用智能,新长征上的新变化》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。