AI大战迎新玩家,Meta发布大型语言模型LLaMA
过去一段时间,科技圈关注的焦点几乎集中在由微软、谷歌和OpenAI等公司开发和部署的大型语言模型上。近日,Meta发布了一款名为LLaMA的大型语言模型,与ChatGPT和Bard不同的是,LLaMA是一个研究工具,Meta希望人们可以通过它,解决一直困扰大型语言模型的一些问题。
继微软、谷歌之后,Meta也加入AI竞赛。当地时间2月24日,Meta官网公布了自家类似ChatGPT的大型语言模型LLaMA,旨在帮助研究人员推进他们的工作。
Meta首席执行官马克·扎克伯格在社交平台上表示:“今天我们发布了一种新的最先进的人工智能大型语言模型,名为LLaMA,旨在帮助研究人员推进他们的工作。LLMS在生成文本、进行对话、总结书面材料以及解决数学定理或预测蛋白质结构等更复杂的任务方面表现出了很大的潜力。Meta致力于这种开放的研究模式,我们将为人工智能研究社区提供我们的新模式。”
什么是LLMS?
在我们了解Meta的LLaMA平台是什么之前,了解LLMS(大型语言模型)到底是什么是至关重要的。LLMS是一种人工智能训练模型,可以从文章、新闻报道和社交媒体帖子等互联网来源中获取大量数字文本。
然后,这些文本被用于训练ChatGPT等软件,以便仅根据用户的提示预测和生成内容。然后,LLMS成为了我们正在看到的许多人工智能聊天机器人的重要组成部分。
那么,什么是LLaMA呢?根据Meta的说法,LLaMA是一个最先进的基础大型语言模型,旨在帮助研究人员推进他们在人工智能子领域的工作。从本质上讲,这意味着它并不是一个聊天机器人。相反,它是一个研究工具,将有助于解决有关人工智能语言模型的问题。
“像LLaMA这种体积更小、性能更高的模型,能够帮助社区中无法访问大量基础设施的其他人能够研究这些模型,进一步使这个重要、快速变化的领域实现无阻碍地访问。”Meta 在其官方博客中这样描述该模型。
Meta接着指出,即使最近在大型语言模型方面取得了所有的进展,由于训练和运行这样的大型模型所需的资源,对它们的全面研究访问仍然有限。Meta写道:“这种受限访问限制了研究人员理解这些大型语言模型如何以及为什么工作的能力,阻碍了提高其鲁棒性和减轻偏见等已知问题的进展。”
为了解决这个问题,Meta透露,将在使用公共数据库的同时,在数万亿令牌上训练其模型(参数范围从7B到65B不等)。从理论上讲,这将消除对专有和不可访问数据集的依赖。
据悉,与其他大型语言模型一样,LLaMA的工作原理是将一组单词作为输入,并预测下一个单词,然后递归生成文本。LLaMA接受了来自20种不同语言的文本训练,训练数据包括来自CCNet、C4、Wikipedia、ArXiv和Stack exchange的公开文本。
LLaMA的出现意味着什么?
Meta称,训练像LLaMA这样的小型基础模型在大型语言模型领域非常有帮助,因为它需要更少的计算能力和资源来测试新方式,验证其他人的工作,并探索新的用例。
众所周知,基础语言模型是使用大量未标记的数据进行训练的。这使得它们特别适合根据各种任务进行定制。
尽管Meta承认,需要进行更多的研究来解决包括LLaMA在内的大多数大型语言模型中的偏见、有害评论风险,但它似乎已经被建立起来,以允许研究人员测试在大型语言模型中限制或消除这些问题的新方法。
Meta解释道:“LLaMA作为一个基础模型,其设计是通用的,可以应用于许多不同的用例,而不是针对特定任务而设计的微调模型。”
为了保持完整性和防止滥用,他们将在非商业许可下发布他们的模型,重点是研究用例。该模型的访问权将被逐一授予学术研究人员,隶属于政府、民间团体和学术界的组织,以及世界各地的行业研究实验室。
写在最后:
目前,还很难说在这个快速爆火的领域,LLaMA将如何与其他科技巨头的人工智能尝试相抗衡。
不过,到目前为止,几乎每一个最近发布的大型语言模型都有自己的问题,如谷歌的对话式AI服务Bard在一场发布会上对用户提出的问题给出错误回答,微软新版必应写错财报数据。此外,还有版权、隐私,以及如何管理互联网上许多人发现的绕过限制、生成攻击性内容甚至恶意软件的变通办法等尚未解决的问题。
因此,我们需要在充分利用人工智能的同时,也要注意控制其潜在的风险,以推动该技术良性健康发展。



-
微博认证登录
-
QQ账号登录
-
微信账号登录

企业俱乐部
Copyright (C) 1997-2020 Chinabyte.com, All Rights Reserved