1.4 ChatGPT有哪些技术突破?
1.4 chatGPT的技术突破
加入刘志毅「AI时代的科技新范式」
大家好,欢迎来到见闻大师课《AI时代的科技新范式》,我是刘志毅。
一系列新技术的突破就是图中左边的这些学习。针对右边列出的几点,国内厂商在哪些方面做好了工作?哪些方面做的相对不够好呢?
第一,基于Transformer模型架构可以做,因为已经开源了,大家都可以用了。
第二,预训练与微调,预训练是最难的,怎样对数据集在千亿级别参数上进行训练,这是最难的。我的理解是大部分厂商其实还没有完成这个工作,正在进行的,一是数据集建构,二是在不同模型参数上微调后,进行训练达到好的效果。
第三,多层架构,这个其实比较容易,难点就在刚才讲的分布式部署上,怎样让多层架构在芯片上发挥最好的能力?
第四,动态拓展,增加模型层数和参数量提高模型的性能,是经验上获得的工艺水平的提升。比如商汤在2015-2016年的时候,已经做过数百亿参数了,做过之后,再从数百亿跳到千亿,毕竟比从0开始要好,对算力的应用能力、模型部署能力都会提升。
大家在前几周看我们公开的日日新模型觉得好神奇,效果还不错,文本意义也不错,尤其在图形生成上。原因是第一,在模型训练上之前已经做过数百亿的参数了,在做上千亿的时候相对来说肯定还是靠谱的。第二,在NLP领域,中国人做的不够好,但是在视觉领域,其实我们是做得很好的,至少没有落下一个时代。
我们统计过,比如商汤为例,它发的论文总量基本上跟全球最顶尖的大学MIT或者Stanford差不多,在有些领域比谷歌还多,说明在不同领域的积累不一样。反过来为什么国内厂商特别愿意在做大模型时展现多模态,多模态就是除了文本以外,还有视频、图片之类,很简单,如果跳过核心的推理能力,做多模态对大多数国内厂商来说是一个更容易的事情。
做多模态是简单的文本和视觉的迁移、学习对齐的任务,再加上模型训练功能。要让模型产生推理,产生逻辑这件事情难度太大了,这是实际情况。即使GPT-4没有提供文生图的能力,它提供的是读图能力,但如果一个厂商称不仅能文生图,还能图生文,加上音频等数据的迁移,这时候我们能说它的总体能力超过了GPT-4吗?我觉得不能,因为它只是在多模态展现上,在难度更低的事情上,实现了超越。
但对GPT这条路线来说,难度在于怎样在生成的时候既有推理能力,又能实现多模态。理想情况下,应该是输入给模型一句话,比如画一个符合宋代风格的建筑图设计纸,参数跟故宫一样大,它就能够生成一个完全的图纸。“跟故宫一样大”是最难的,这时候它要自己学习故宫是什么,图纸是什么,时代是什么。这些事情已经实现了,有很多基于GPT-4的厂商,自己对接接口后开始开发这个功能。
这就是Altman所讲的OpenAI为这个时代提供的,是一种推理能力,模型的智能提供给大家,然后大家基于这个接口去商业化,比如画图纸、做设计、做PPT,这是我们看到的实际情况,反过来国内的生态也是这样,大多数企业都没有在做大模型,应该在5家以内比较合适。就好像移动互联网时代起来的时候,运营商提供的基础设施,提供的基础逻辑能力,再往下吃到福利的其实是BAT这样的互联网服务提供商。
大模型时代也是一样,几个大企业做完大模型可以了,然后往下去做产业落地,这是我们看到的情况,但还是存在一系列技术难点。一是对本身的掌控,比如训练时间长、资源消耗高、准确率有待提高,这在GTP-4上都有所优化。再往下是容易产生误导性或者生成结果的一致性不够,这里指的是什么?有一个专门的名词叫做推理幻觉,幻觉的意思是它不是有理解的、有意义的智能,而是一只迷宫里的老鼠,在推测你喜欢什么或者哪个答案更偏向于人类理解的智能能力,所以它产生误导性或生成结果的一致性很差,都是因为这个原因。
即使做到GPT-4,Altman也说,我们没办法认为它是一个超越人的模型,它仍然会存在错误,在于底层数学逻辑就是这样。再往下就是跨模态性不够,GPT-4其实也是对图形的阅读能力,没有文生图,是另外一个模型做了文生图。再往下是对话长度限制多,语言支持不够,这在GPT-4已经被解决。
风格和语气的控制,我要讲一下,因为我天天在用,如果想要获得一个更好的Prompt结果,现在有一本国外学者写的书,就是怎么样用GPT-4给它语句能获得更好的结果。大家如果想用它,就是要在这一方面加强。
举个例子,比如说我现在写一个文章,这个文章是财经领域的,但是我怕自己能力不够,我下达指令以什么为主题,假设你是纽约时报或者Times的首席作者帮我写这篇文章,而且要以写纽约时报哪篇文章或者是哪一类文章的风格来写。
我有三点要求,第一点要求文本能力不能弱于发表在Times上的文章的能力;第二点要求要符合中文的表达习惯;第三点要求生成的内容不能是其它材料的机械组合,而要有深度洞察的观点。这时候这个模型就会代入它是一个纽约时报的作者,按照这三点要求生成一篇质量很高的文章。前几天我也做了一个实验,假设你是鲁迅,对乌克兰和俄罗斯关系怎么看?请写一篇文章批判,人工智能也写得很好,甚至说文章里面有哪几句话特别适合批判。这时候就是带入人格,带入风格,对语气进行控制,用很长的Prompt提示语句来获得相应功能。
如果有一天真用到了GPT或其他人工智能,Prompt工程是最重要的之一。比如今天我招一个文员,他的核心能力不是怎么画PPT,而是怎么教GPT画ppt,怎么写Prompt语句。考试方式很简单,现场出一个题,两个人都用GPT画,然后看Prompt语义有多高,这个就是人机协同。我们的能力核心变成怎样去训练机器,不是直接干,一天能写好的PPT超不过100页,但是只要有合适的Prompt语句,一天内就可以完成强度很大的工作,时代的变化在这。
对大多数人来说不应该也不需要去学习,怎么做算法部署,怎么做预训练数据集,或者怎样把模型做更多迭代优化,需要做的是在它不断进化的能力过程当中,学习怎么与它深度协同。
有机会我们可以分享一下,有一本英文书分了很多类,比如在什么样的角色下去问GPT?以什么样的风格去问?在什么功能上去问?甚至可以设定告诉GPT你不是GPT,你是维基百科,我现在问你几个问题,你要以维基百科的方式告诉我答案是什么。这时候你再问他,就会以百科的方式,以表格的方式,或者以其他不同方式来回答。
以后有机会我可以给大家做一个专门分享,一边弄一边做演示,应该怎样做Prompt工程,这是非常实用的,可是国内还没有总结好,这件事对很多人都很重要。
最后是创新性有待提升,创新性就是它无法进行在线实时学习,而且没有创造新知识的能力,是限于模型的问题,这个模型本身有一些限制,导致了限制。
以上本期课程的主要内容,关于课程内容有什么问题或建议欢迎留言。我是刘志毅,我们下期再见。
- E N D -
— — 《AI时代的科技新范式》目录— —