GPT-4有哪些改进突破?
1.7GPT—4有哪些改进突破?
加入刘志毅「AI时代的科技新范式」
大家好,欢迎来到见闻大师课《AI时代的科技新范式》,我是刘志毅。
GPT-4是什么呢?是一个大型多模态模型,它做出了三个方向的提升。第一在特定功能上,比如创作歌曲、编写剧本和写作风格。第二是视觉输入,接受图像作为说明分类分析的一个对象。第三是接纳更长文本进行搜索扩建,包括内容生成。我自己对比GPT-3.5和GPT-4的感受,3.5就像一个高中生水平,更多的是对数据文本进行简单的逻辑化处理。4的话,只要Prompt做的够好,完全能生成媲美于大学教授水平的研究成果,而且可能会更加有深度和跨学科的研究。
它的改进怎么实现?其实就三个层面。第一是对数据集进行优化,使用公开数据集和自生数据集进行训练,然后进行相应的推理训练,这是最难的地方。即使拿到公开数据集,怎样让它在一个大模型中获得优化好的结果,这是一个很有挑战的事情。第二就是建立了预测扩展的深度学习栈,其实就是开发了基础算法和优化器,说白了就是在模型落地的时候,发挥充分性能,需要进行相应优化。第三个就是强化学习,在实验中发现了预训练决定了模型的最后成果,而强化学习测试效果并不佳,就是因为3.5到4的时候,在30%的情况下,并没有获得一个比3.5更好的结果。为什么?
猜想有两个结论,第一,GPT-4这个模型,几乎是跟GPT-3.5同一期做的训练,只是稍晚一点,而且是更早的或者同期的数据集。说明什么呢?说明它并没有用更高级别的参数,有的人说3.5是一个1750亿的参数,可能4是一个万亿参数,我认为这个可能性不大,否则它的表现不会是这样的。
第二点就是刚才有人问到在多少级别的指数上能够涌现出智能?这个问题没有答案。到现在为止,没有人能解释在这个参数级别上涌现出智能是为什么。所以在这个情况下,不能去假设万亿参数之后会有更高级别的智能。国内有些企业说万亿参数,我觉得意义不大,因为参数只说明了模型复杂度,并不说明有效性。GPT-4很有可能是对特定的功能,比如推理能力,包括做题的能力等等进行优化,但它也因此在某些能力上反倒弱化了。具体要看数据集的表现,这一点证明了刚才讲的结论,它不是一个全新的生态,是对3.5的模型优化。
接下来就讲范式的问题,刚才已经提到了,做科学研究有不同范式。第一范式是做实验,各种物理学、化学怎么实验,第二就是理论推导。第三是计算机出现之后,比如做matlab相关的一些东西,数学仿真、数字仿真,包括制造业仿真,都在这个领域。
最后数据科学,大数据也是一个范式,这里又要提到微软了,因为数据密集型的第四范式概念也是微软最早提出的,而且2009年的时候就出书了。再往下看第五范式,刚才讲的机器猜想加科学智能,AI4Science。我刚才说微软为什么做得很好,虽然他今年才建立,但是已经做了很多事情了。这里副总裁说的是什么?它充分利用人工智能能力来开发新的科学发现工具,科学发现工具就说明了刚才的观点,它直接面对科技创新领域最底层的问题。
我相信未来的驱动方式,就是AI必须参与进来,去监测这些结果,然后推动基础研究的范式变化。反过来看微软做的项目,剑桥团队跟诺华做了生成化学的项目,通过learning的方式直接生成新的生成化学的相应结果,然后获得一系列指导,而这些指导在没有用AI的情况下是无法得到的。
这里总结的就是通过巨型复杂系统对撞的方式进行机器猜想。巨型复杂系统的概念是钱学森老师提出来的,就是在巨型复杂系统下能获得智能,然后通过不同的算法和场景,也就是把算法和场景跟数据结合起来,获得不同领域专业知识,获得潜在性结果。所以范式变化对我们很重要就在这里。因为我们在基础科研领域长期落后,当然也有方向比较前沿,比如天文观测等等,但很多落后的领域,在这些方面就要去做到创新型的工作。
这里我只举一个例,比如说芯片卡脖子这件事情能解决吗?我给大家解释一下,并不是我们不知道怎么制作芯片,因为这套制造芯片的工艺导致了两件事情,第一,全球没有一个国家可以从设计到制造全部独立完成,光刻机是荷兰的,日本又要做组建,国内还得生产台积电做制造等。但美国的好处就是很多基础科研的专利,包括跟芯片有关的技术是其自己发明的,说白了美国享有先发优势。在这个情况下困难在哪里?就是所有的核心专利,技术制造的工艺方式全部被垄断了。
这时候就没办法了,可以通过荷兰阿斯迈尔公司做光刻机,可是光刻机背后的一系列技术,包括知识产权都是美国的,敢卖给中国,那就断货,不让你制造下一台,这是最大的问题。在这个情况下,我们有没有办法跨越?是有的,在基础材料科学上,比如说不用硅片,用石墨或者其他合成材料能够达到相应工艺,就直接跨越了现在制造主流硅芯片的技术了。在这个情况下,创新的价值就在这,如果真的能够跨越它,在材料科学上做出决定性突破,而且国内已经有人在做了,那所谓的卡脖子就没有意义了,因为完全不同的技术路线下不用谈这个。
这就好像为什么现在日本的电动汽车做的最差,很简单,因为日本将全部或几乎全部的资源都投入到氢能源车,想垄断技术路线。全世界80-90%的氢能源车,用氢的知识产权到日本。日本的算盘很好,垄断然后生产,世界各国都用,它就变成汽车霸主了,结果人家一看,虽然新能源车有很多好处,但因为垄断太厉害了,所以中、美、欧都不采纳这样的技术路线,导致现在日本一塌糊涂。因为成本很高,光靠一个国家是运转不起来的,又没有相应持续的技术迭代,甚至每年消费在氢能源车上只有20-30%。这就是我们对技术的基本判断,无论要跨越还是怎样,都需要结合当下的技术发展形态和模式去看待。
以上本期课程的主要内容,关于课程内容有什么问题或建议欢迎留言。我是刘志毅,我们下期再见。
- E N D -
— — 《AI时代的科技新范式》目录— —