4.1 海内外发展:创业公司崭露头角,科技巨头积极布局

加入刘志毅「AI时代的科技新范式

大家好,欢迎来到见闻大师课《AI时代的科技新范式》,我是刘志毅。

最后一章来看国内外的一些企业,我会按最新情况跟大家做一些汇报。其实无非就是这几家,BAT、网易、字节跳动。腾讯叫混元大模型,阿里做的通义千问跟百度的文心一言很像,实际上都是一样的,商汤也涉足了文本大模型叫日日新。

看国外的情况,OpenAI做了底层应用以后,垂类生态已经起来了,包括刚才我提到Stability AI、Midjourney这几家公司都做了相应的应用。Stability AI就是做了Stable Diffusion的DreamStudio这样一个多模态软件。AIGC领域基本上都是基于Open AI在做,当然现在是GPT4相关的应用。大家看产业融资的情况就能看出,主要还是在各自领域都有相应创新,大家如果想研究的话,也可以围绕这几家公司来做一些研究。

大家了解到的Open AI是做底层算法,能力是开发水平强,通用性高,但也因此把自己卖出去了。在2015年初的时候,它只是一个非营利性机构,当时Elon Musk承诺捐赠10亿美金,但捐赠了1亿美金以后就走了。最近新闻说当时马斯克想要管理整个Open AI,把其私有化,Altman没有答应,后来在2019年拿了微软的钱变成了一家盈利性公司,然后用这些钱投入相应的项目。

现在的软件除了大家知道的GPT系列,还有其他的比如CLIP系列,就是多模态。这个其实很多公司都在做,因为它已经开源了。为什么前段时间有人怀疑国内的一些厂商用了它,就是因为在代码的块中看到了它开源组件的一些标识和文本注释。Codex其实就是代码补全,Github Copilot的底层支持就是基于这个来做的。最后就是DALL-E 2,一个文本生成高质量图片,可以看到底层的覆盖是非常全的,然后还提供了开源组件,仍然还得回报开源社区,这是国外的技术创新文化所决定的。Open AI准备出专业付费版,其实就是我们在用的GPT 4了,现在一个月应该是20美金。在使用当中确实很好用,但是因为用的人太多了,现在限制3个小时25条回答,而且有时候还会断线,但确实很好用。

Stability AI是一个专门做开源AI的公司,而且最核心的是Stable Diffusion,现在是使用人数最多的多模态软件、AIGC生成软件之一。它不仅能够做文本转向图片,而且已经开始推出官方的API接口,能够形成自己的多模态的一些功能。

另一个我个人,包括行业内非常看好的多模态的软件就是Midjourney,是付费的。如果大家去b站上搜索它做的一些作品,比如给它一句古诗,它能生成相应图像,效果非常好,水墨画什么都特别精致,而且一次输入可以输出多幅图片。它的模式是会员付费模式,用户数量接近上千万。

国外的创新就是这个特点,不是有了Open AI以后其他家就没法干了,其他家其实还会根据自己的特点获得相应的融资,因为他们都有自己的技术特色,而且有一些门槛在。那么这里就提醒两点,第一点是国内做创新和国外创新逻辑不太一样,国内确实是更偏向于应用型创新。这时候的技术扩散或技术移植能力就很重要。第二是能否快速商业化,拿到了移植技术以后,能不能快速帮助客户赋能,这也很关键。

谷歌现在压力很大的原因就在于它的搜索是交互式的,可能会受到影响。谷歌对AI的投入应该是2017年Transformer那个论文提出来就开始的,也奠定了大模型的框架,但是没想到为他人做了嫁衣,最终是微软所收购的Open AI做出了相应的发展。但AlphaGo是Deepmind做的,蛋白质结构的算法AlphaFold也是他们做的。所以除了微软以外,我最看好就是他们家。

他们都是同一的技术,只是采纳了不同的路径,Open AI采纳的技术路径就是大力出奇迹,通过参数大模型来做,而谷歌采纳的就是在可控模型、参数下,去做自然语言生成,而且它已经开始开源了。谷歌也收购,它收购了Deepmind,AlphaGo、AlphaStar包括AlphaFold2都是它们做的,而且它的一系列算法的应用领域也非常广泛,覆盖围棋、蛋白质、电竞还有智能聊天机器人。

大家可以看到受影响的就是两方面,一方面是搜索业务,第二方面就是广告业务。尤其是广告业务,如果不能够很快的跟上技术迭代,整个信息本身也会从分发环节往前走至生成环节,把商业化逻辑放在比较前端的部分。可以看它相关的产品,其实产品局还是很丰富的,生成的相关内容从2017年到2023年几乎都有相应的算法和模型来生成。

如果从这一点来看,需要提醒大家的就是,如果不是真的技术强到离谱,就不要跟大公司竞争这个环节了,因为投入的资源完全不是一个量级的。

Sparrow现在做的好像还不够成熟,谷歌没有公布最新的一些情况,但已经有这样的一个软件了,应该会基于自己做的语言模型Bard再做一些深化。Sparrow是一个参数更少,但训练集更大的方向,而且Sparrow本身在垂类的准确度上还会有一些优化,因为参数量小、算力小,训练数据集多就可以提升模型的性能和质量,这是它的特点,只是技术路线跟其他不一样。

我认为ChatGPT打开了通用人工智能的这个方向的基础,但并不是最终的解决答案。产品对比上来说可以看到Bard跟ChatGPT比时效性会更强,因为Bard是基于谷歌的人工智能语言模型做的对话机器人,所以效果没有那么好,但由于集合了一些搜索内容能力,其实可以保证一定的实施性,可以快速更迭。AlphaGo和AlphaStar这两款产品,一个是下围棋一个是打游戏,可以看到谷歌在这方面的能力。毕竟Transformer是Google做的,所以如果推出新的算法,那么有可能打破OpenAI在技术上封闭和垄断。至少目前来看谷歌是要走开源这条路线的,因为它落后了必定要对社区有更多的回馈。

AlphaFold就是蛋白质结构检测,Gato其实是一个“通才”模型,就是指令集然后能够进行不同交互,这种交互能力如果能够集成到大模型上,未来能力就会很强,因为它能够做的事情非常多,交互、游戏,包括堆积木,工程上的一些设计应用等都可以用那个来做。

在考虑国内巨头的进程或者相应产品部署的时候,谷歌是一个非常好的案例,因为它特别早的进入这个领域,同时也把大多数能够产品化的AI技术都产品化了,所以在这个情况下可以进行一些对标,包括对它公开的技术测试可以进行一些分析。

微软当然是这一轮当中获得最多收益的企业,不管是云平台、服务器系统还是生产力流程和个人业务,现在都全面集成了这一套逻辑。最近变化最大的,或者说挑战最大的企业之一,是阿里巴巴,阿里在马云回来以后进行了组织变革,阿里云独立出来,就是完全按微软这套逻辑做了。不仅云服务大幅度降价60%,还快速集成所有通义千问的一些功能。

可以看到微软的一系列布局,错失移动互联网之后就做云,然后在做云的基础上发展AI,尤其是投资了Open AI获得了非常好的盈利,从股价来看有明显变化。Open AI是什么呢?它就是一个开发了的安卓系统,当然它需要盈利。那么通过这样的方式实际上获得了相应的技术能力和基础能力,接下来就可以对企业或个人进行全面服务。GPT 4已经发布了,发布过程实际就是把多模态能力集中起来,并且提供付费版本,日活量提升,也是在养活整个商业的研发团队。所以这一套方法论其实就是大公司现在做的方法论,通过Open AI加微软的服务去实现本地化的服务智能,就是云计算的,包括个人效率的、代码的、舆论的都是在这一层面去做。国内如果有企业要做这个路线,其实就可以参考这套逻辑。

另外一家公司就小冰,原来叫AI Being,它已经完成融资了,而且现在主打数字人。数字员工已经做了很多服务,现在可以结合这一部分能力来完成相应的内容创作和转型。所以数字人这个领域实际上也受到了一些挑战,包括商汤之前的日日新中也公开了一个数字模型,就是一个行业数字人,能够用在直播、电商等等领域。

腾讯的混元大模型很快会公布了,应该是最近2个月,因为他们已经做了很多内部测试,我们也看到了一些发展。这里提醒大家的就是,即使他们拿出一个,在结果上看起来更像GPT 4版本的大模型,但它的技术能力仍然有差距,这毫无疑问,因为国内还不具备对整个GPT 4的泛化性重复。

阿里的通义千问我们测试了,从自然语言能力来说其实并没有比百度文心好多少,大概是一个级别的。泛化性来说,可能在某些功能上感觉还行,主要还是跟云服务结合比较好。但阿里有一个好的商业模式或者说有一个优势,就是据说它有超过10万张的A100显卡,存的多,可以快速赋能。

字节也在做大模型,张一鸣也在招人,现在有新闻说他招募Open AI的一个工作人员花了很多钱。但我了解到他们在上个月时还对这件事情没有做得很成熟,团队也还在组建。在这个情况下,我们很难期待它做出一个更高级的产品,但应该会很快,因为商业化团队最早用了自己的模型技术,现在也是快速扩张,应该能做出一个比较完善的产品矩阵来,不过推断能力不好说,应该还不是特别强。

最后,我做的很多研究都是跨学科的,在这个过程中,我的这些跨学科的研究能力是怎么建构起来的?其实就是在不同的研究课题中去做的。ChatGPT时代,我觉得最重要的三个能力,第一是你确实有知识发现和知识创作的能力,尤其在跨学科方面,如果能做出更多的探索是很重要。第二是整个过程其实是一个基于机器学习的智能科学发现,智能科学的发现过程需要不断通过promote加强整个发现的成果,这还是比较重要的。比如说去年我们研究的一个大方向是AI for Science,在医疗、医药这些方向,再往下去做这个方向的时候,我们可以看到计算、法学等领域,也开始把它应用在这些领域。所以不管做哪个领域的创新和研究,都需要在最新的领域做一些突破。第三点就是,AI for Science这个课题其实是把这个领域用在基础科研方向上,可以获得更多的、更全面的知识,能够推动基本的创新逻辑变化。

如果大家对这部分内容还比较感兴趣的话,后续我们可以考虑,一是跟大家一起探讨promote的一些工程,包括具体怎么使用。第二是找一个我自己比较关心的领域,比如AI for Science,大家可能来自医疗或其他领域,可以一起探讨。第三其实涉及到一个很重要的命题,就是跟法律政策相关的,比如如何解读现在国内外的一些科技政策,尤其大模型出来以后的政策,包括如何做数据合规的相关工作。

我去年的时候接了一个课题,给华为做全球数据合规、伦理合规方面的工作,当时跟欧洲的一个团队来合作,他们问了三方面问题,第一从全球来看,如果推动这个技术,比如华为的一些服务器或者技术要进入欧洲,怎么去看伦理相关的事。他们提到了数字人权法案,提到欧洲的一系列法案,GDPR等的影响。第二个问题是在进入欧洲市场的时候,要有什么样的合规逻辑和风控方法来保证符合相应的行业要求、政府要求。第三是当时提到了特别多的跟美国相关的,包括美国国会给的法案,讨论他们对整个华为的供应链,包括相应技术的实施方案的影响。这其实对很多跨国企业,包括大家投资一些跨国企业还是有很大作用的,包括数据合规、伦理合规、数据安全等等。

如果说移动互联网时代的创业创新是在To C情况下肆无忌惮或者说在灰色创新空间进行创新,那么人工智能时代,从现在看来,其实是戴着脚铐跳舞。为什么?因为人工智能技术从2015年开始都有一个特点,会快速进入经济和社会系统当中。在这个前提下,无论国内还是国外,必然要符合这些合规性的规定。那怎样去做相应的风险控制,之后有机会再跟大家继续探讨。

以上本期课程的主要内容,关于课程内容有什么问题或建议欢迎留言。我是刘志毅,我们下期再见。

- E N D -

 加入刘志毅「AI时代的科技新范式」

— — 《AI时代的科技新范式》目录— —

风险提示:大师课为甄选第三方合规机构人士,讲授投研理论课程之平台,所授内容不构成对任何具体产品的买卖或投资建议。平台课程所表述的意见仅供学习与参考,不代表华尔街见闻意见或观点,也不解决用户特殊的投资目标、财务状况或需要。市场具有波动性和不确定性,平台不对任何与您依赖课程观点或信息而遭受的损失承担责任。投资有风险,请谨慎决策。