再一次改变“AI”世界 GPT-4千呼万唤始出来

作者：贾桂鹏来源：原创 2023-03-16

近段时间，人工智能聊天机器人ChatGPT刷爆网络，网友们争先恐后去领略它的超高情商和巨大威力。参加高考、修改代码、构思小说……它在广大网友的“鞭策”下不断突破自我，甚至可以用一整段程序，为你拼接出一只小狗。而这些技能只是基于GPT-3.5开发而来，在3月15日，AI世界再次更新，最新版本的GPT-4也被OpenAI发布了出来。

与之前相比，GPT-4不仅展现了更加强大的语言理解能力，还能够处理图像内容，在考试中的得分甚至能超越90%的人类。那么，如此“逆天”的GPT-4还具有哪些能力？它又是如何炼成的呢？

“逆天”的GPT-4

在发布了GPT-4后，OpenAI官网一度发生拥堵，很多用户在社交媒体里面表示他们立刻订阅了Plus服务。GPT-4在发布后，“GPT-4”这一词条迅速登上美国、日本等地区热榜，也登上了国内的微博热搜榜、抖音热榜社会榜等。

据OpenAI官方介绍，GPT-4是一个大型的多模式模型，可以接收图像和文本输入，输出文本。虽然它在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平的性能。比如GPT-4可以通过模拟SAT(美国学术能力评估测验)，并取得前10%的成绩，而GPT-3.5的成绩则在最后10%之列。

再一次改变“AI”世界 GPT-4千呼万唤始出来

我们看到，在官方演示视频中，Open AI总裁兼联合创始人Greg Brockman还让用户先睹为快，了解最新版系统的图像识别功能，该系统尚未公开，仅由一家名为Be My Eyes的公司测试。该功能将允许 GPT-4 分析和响应与提示一起提交的图像，并根据这些图像回答问题或执行任务。“GPT-4 不仅仅是一种语言模型，它还是一种视觉模型，”Brockman表示，“它可以灵活地接受任意穿插图像和文本的输入，有点像文档。”

在演示的另一个时刻，Greg Brockman向GPT-4提交了一张手绘和初步网站草图的照片，系统创建了一个工作基于绘图的网站。

再一次改变“AI”世界 GPT-4千呼万唤始出来

业界认为，ChatGPT-4比GPT-3强大571倍，最受益于这一最新成果的三大职业就是作家、市场营销人员和创业者。根据对两者比较，业界人士还指出GPT-4的其他优势，如训练数据更多、答复更加多样性和有创意性以及反应所需时长更短，一秒即可。

再一次改变“AI”世界 GPT-4千呼万唤始出来

我们认为，这种升级体现的一个主要趋势就是多模态，模型变得更加复杂庞大，可以将不同类型的数据放入同一模型，对我们周边的环境和真实世界做出更好的理解。

此外，在多语种方面，GPT-4也体现出优越性。在测试的26种语言中，GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能，其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中，GPT-4能够达到80.1%的准确性。

不过，OpenAI也在官方网站上给出了GPT-4存在的不足，其仍然存在包括社会偏见、捏造事实、对抗生成等已知限制。OpenAI对此表示，随着社会对AI模型的接受，将增加透明度，鼓励并促进用户教育和更广泛的人工智能素养，并致力于扩大人们在培养AI模型方面的输入途径。

GPT-4可以商业化了

随着GPT-4的发展，我们发现它的能力虽然在很多现实场景中不如人类，但在各种专业和学术基准测试中表现出了与人类相当的水平，这也意味着，GPT-4确实在商业化上更进一步了。

此前，GPT-3在专业领域的表现一直被人们认为差强人意，在美国的律师资格考试Uniform Bar Exam (MBE+MEE+MPT)中，GPT-3.5只能排在倒数10%，而GPT-4的成绩则已经可以排到前10%。GPT-4在专业领域的能力实现了巨大提升，在一些专业领域已经开始逐渐接近甚至超过人类，这给GPT-4在很多ToB商业领域提供了更多可能性。

比如专业技能辅助工具，知识检索类的应用，职业教培辅导等领域，GPT-4带来的能力可能将会是革命性的。

GPT-4发布之后，微软在第一时间表示：“如果你在过去五周内的任何时候使用过新的Bing预览版，你就已经提前了解了OpenAI最新模型的强大功能”。这表示New Bing早已经用上了GPT-4，在过去几周，很多人体验的必应就是GPT-4加强过的，仅仅开放使用了文字能力而已。虽然微软没有用全球首发的字眼来描述，毕竟微软在OpenAPI上已经投入了130亿美元(约合人民币900亿元)，换来的这样的待遇也是情理之中。

除了微软的New Bing外，目前还有多家公司将GPT-4搭载到他们的产品中，包括语言学习工具软件多邻国(Duolingo)、帮助视障用户的软件BeMyEyes、移动支付公司Stripe、国际性金融服务公司摩根士丹利等。

但不得不承认的是，虽然GPT-4大幅拓宽了大模型可能落地的商业化场景，但算力、研发成本，仍被很多人认为是大模型落地过程中很难跨过的障碍。毕竟大模型的研发、算力支出在目前看来高得吓人，此前ChatGPT公开的单次训练、日常运营开支都是以百万美元为单位的，短期内想要商用可能很难控制成本。

GPT发展史

众所周知，ChatGPT是OpenAI公司研发的一个大型自然语言处理模型，但很多人不知道，它的发展历程可以追溯到2015年。2015年，OpenAI由特斯拉的马斯克、Sam Altman及其他投资者共同创立，旨在通过先进的人工智能技术推动人工智能领域的发展。而马斯克则在2018年时因公司发展方向分歧而离开。

此前，OpenAI因推出 GPT系列自然语言处理模型而闻名。从2018年起，OpenAI就开始发布生成式预训练语言模型GPT(Generative Pre-trained Transformer)，可用于生成文章、代码、机器翻译、问答等各类内容。

每一代GPT模型的参数量都爆炸式增长，2019年2月发布的GPT-2参数量为15亿，在2020年5月，当OpenAI发布了GPT-3，它已经是世界上最先进的自然语言生成模型。GPT-3具有1750亿个参数。

GPT-3出现时，作为一个无监督模型(现在经常被称为自监督模型)，几乎可以完成自然语言处理的绝大部分任务，例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。

而且，该模型在诸多任务上表现卓越，例如在法语-英语和德语-英语机器翻译任务上达到当前最佳水平，自动产生的文章几乎让人无法辨别出自人还是机器，更令人惊讶的是在两位数的加减运算任务上达到几乎100%的正确率，甚至还可以依据任务描述自动生成代码。一个无监督模型功能多效果好，似乎让人们看到了通用人工智能的希望，可能这就是GPT-3影响如此之大的主要原因。

2021年，OpenAI宣布将推出一个新的名称，名为“DALL-E"，这是一种能够生成图像的人工智能技术。同时，OpenAI也在研发更加先进的自然语言处理技术。

此后的故事相信大家都很清楚了，2022年底基于GPT-3.5的ChatGPT以光速席卷全球，成为全球最大的“科技明细”，直到现在GPT-4的发布更是登上多国热搜。

再一次改变“AI”世界 GPT-4千呼万唤始出来