文|经纬创投
开源大模型的王座又要换人了。
当地时间4月18日,Meta发布了其最新开源模型Llama 3,提供8B和70B的预训练和指令微调版本,号称是最强大的开源大语言模型。
与此同时,扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手现在已经覆盖 Instagram、WhatsApp、Facebook 等全系应用,并单独开启了网站。另外还有一个图像生成器,可根据自然语言提示词生成图片。
该消息一经发出瞬间引起热议。英伟达高级科学家Jim Fan认为,之后可能会发布的Llama 3-400B以上的版本,将成为某种“分水岭”,开源社区或将能用上GPT-4级别的模型。
同时,扎克伯格表示,“我们的目标不是与开源模型竞争,而是要超过所有人,打造最领先的人工智能。”未来,Meta团队将会公布Llama 3的技术报告,披露模型更多的细节。
那么,作为以开源特性闻名的语言模型,Llama 3和其他模型有哪些不一样?在过往的基础上有哪些更新?开源和闭源之争,什么才是背后的决定因素?以下,Enjoy:
01 新一代Llama3模型,有哪些亮点?
当地时间4月18日,Meta不负众望发布了两款开源Llama 3 8B与Llama 3 70B模型。并称这是同等体量下,性能最好的开源模型。
号称一代更比一代强的Llama 3 8B,在部分性能测试上甚至比Llama 2 70B还要强大。无论是预训练还是指令微调,都展现出更灵活易用的特点。
这也受益于Meta在研发Llama 3 过程中,设计的一套更高质量的人类评估标准。1800个测试项、12个主要应用场景,囊括了角色扮演、逻辑推理、开放/封闭式问题等多项标准。
基于这一评估标准,相较于Claude Sonnet、Mistral Medium 以及 GPT-3.5 模型,Meta Llama3的提升可见一斑。
备受瞩目的Meta Llama3,将精力集中在四大核心要素:模型架构、预训练数据、预训练规模、指令微调。
模型架构:
与前一代Llama2相比,Llama3进行了关键性能改进。首先,Llama3采用128K token的分词器,以提高编码语言效率;其次,8B和70B规模模型采用GQA技术,最多可以处理8192个Token序列,并且通过掩码技术规范模型的自注意力机制,以防跨越不同文档界限。
训练数据:
与前一代Llama2相比,Llama3的训练集规模扩大了7倍、代码数据量增加了4倍,在预训练数据投入了更多资源,基于超过15T 的 Token,覆盖了超30种语言。并且,训练过程中,为保障优质数据,还打造了包含应用启发式过滤器、NSFW 内容过滤、语义去重技术和文本质量分类器等一系列高效数据过滤流程。
训练规模:
训练数据的提升使训练规模也需要跟上节奏。为挑选出最佳的数据处理方案,Llama 3 制定了一套详尽的 Scaling Laws以确保多场景下的能力表现。
为训练目前为止最大规格的Llama 3 模型,Meta采用了三种并行技术:数据并行、模型并行和流水线并行。以此达到在16K的GPU上同时训练,最高效可以实现每个GPU超400TFLOPS的计算利用率。
总体而言,相较Llama 2 ,Llama 3 的训练效率提升了大约三倍。
指令微调:
为了提高聊天应用场景的效能,Llama 3 还通过指令微调的办法完成创新性改进。关于Llama 3的训练策略融合了监督式微调、拒绝抽样、近端策略优化和直接策略优化等多种技术,以此提升 Llama 3 在逻辑推理和编程任务上的表现。
针对“疯狂”的Llama 3,科技大佬纷纷现身,发表意见。 在Yann LeCun 为 Llama 3 的发布摇旗呐喊的帖子下,马斯克现身该评论区,留下一句「Not bad 」,表达认可和期待。
英伟达高级科学家Jim Fan称,“ Llama-3-400B+ 将标志着社区获得 GPT-4 级模型的开放权重访问权的分水岭时刻。它将改变许多研究工作和草根初创公司的计算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了数据,Llama-3-400B仍在训练中,希望在接下来的几个月里会变得更好。有如此多的研究潜力可以通过如此强大的能力释放,期待整个生态系统的建设者能量激增!”
传奇研究员,AI开源倡导者吴恩达表示:“Llama 3的发布是自己这辈子收到过的最好的礼物,谢谢你Meta!”
小扎则表示,“我们的目标不仅仅是与开源模型竞争,而是要超过所有人,打造最领先的人工智能。”
根据Meta AI的工程师Aston Zhang透露,未来Llama 3还会解锁新的能力,比如多模态、以及性能更强的400B版本。
Meta自己也放了隐藏小彩蛋:“您很快就可以在我们的 Ray-Ban Meta 智能眼镜上测试多模式 Meta AI。一如既往,我们期待看到您使用 Meta Llama 3 构建的所有令人惊叹的产品和体验。”
“通过 Llama 3,我们着手构建与当今最好的专有模型相媲美的最佳开放模型,”Meta强调,“我们致力于开放 AI 生态系统的持续增长和发展,以负责任地发布我们的模型。我们长期以来一直相信,开放可以带来更好、更安全的产品、更快的创新以及更健康的整体市场。这对 Meta 有利,对社会也有利。”
02 从“开源先锋”到商业版图,Meta在走什么样的路?
比起过往两款产品,Llama3模型显然更走心。但回顾过去,Meta其实一直在拥抱开源文化——技术的开放性,不仅激发了学术界的热情,研究人员得以快速迭代和创新,共同推动AI技术的快速进步,更开拓了商品化的可能,让AI从一个单独的技术,变成一种生态。
2023年2月,人们对于AI语言模型的想象还没有那么丰富时,Meta就发布了首个开源大型语言模型Llama 1,参数规模从7B到65B不等。作为是第一个向学术界开源的模型,Meta在训练这些模型使用了数万亿个token,并且证明了完全可以只使用公开可得的数据集来训练最先进的模型,而无需使用专有和不可获取的数据集。
Llama 1时代,推理速度和性能,是Meta的第一追求。在训练模型时,为满足模型在推理部署时的性能和要求,推理速度和推理性能变得至关重要。因此,LLaMA选择用更小的模型,以及更多的数据集来进行预训练。
有意思的是,通过使用更小的模型和更多的数据集进行训练,Meta的科学家和工程师们同样实现了几乎最先进的性能。这意味着,在不牺牲性能的情况下,降低训练成本和时间,反而能更快推动AI技术的发展。
这样的发现显然也为AI领域的研究人员和开发者提供了新可能。过去,人们普遍认为只有通过不断增加模型的大小才能获得更好的性能,然而,Llama第一代的问世,不仅兼顾了推理性能的需求,更证明了这种观点并不完全正确——在追求更高、更快、更强的AI技术时成本可以更低,结果可能更好。
但对于Meta的开源之路来说,这只是一个开始。
发布Llama不到半年后,Meta很快做出了一个新决定:商业化。
2023年7月,Meta决定将LLMs推向更广泛的商业应用场景。在新一代Llama2模型中,上下文窗口得到扩大,参数规模和训练数据量大幅提升,同时针对聊天场景的能力得到了优化——这些能力的提升,共同为免费可商用的创业和企业界应用提供了可能。
为了让商业化的场景更多元,Llama 2还着重布局了产品的社区力量。通过打造社区合作和衍生产品,开发者和研究人员共同协作,在GitHub和其他平台上交流,并为Llama 2提供了无数的衍生产品和优化,这样的合作式开发模式,不仅加速了模型的改进,还激发了更多关于安全性、可控性和道德性的探讨,更重要的是,让开源大模型的商业化,变得有更多途径和应用。
而走到第三代开源模型产品,Meta的目标是打造一款完美的类“GPT”产品,但又要比GPT更加开放、有效。在新模型发布的前几个月,Meta 内部的生成式 AI 部门的员工一直在努力使 Llama 3 在回答有争议的问题上更开放,此前 Meta 的领导就曾认为 Llama 2 在其回答中过于保守。
此外,在算力的投入上,Meta也一直在AI基础设施上有所布局,据悉,目前只有微软拥有与之相当的计算能力储备。根据,Meta发布的一篇技术博客,到2024年底,该公司将再购350000个英伟达H100 GPU,算上其他GPU,其算力相当于近600000个H100。
从最初有关“开源”的先锋畅想,到今天第三代的开放社区和多元尝试,Meta在走的是不是一条成功的路,无法断言,但可以确定的是,有关大语言模型的商业化尝试,也许能给AI世界,开启一个更接近生活的未来。
03 “开源”VS“闭源”,市场怎么看?
此次Meta发布的Llama3,延续了Meta一贯坚持的开源路线。
目前,开源模型界的竞争正在变得愈发激烈,开源大模型也已成为多家争做的关键。目前,除了Meta的Llama3外,谷歌的Gemma、马斯克旗下的xAI、Mistral AI、StabilityAI等产品,共同构成了开源模型的广阔市场。
就在Llama3发布的几个月前,2 月 21 日,谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,可以视作 Gemini 的技术下放,同时保持免费可用,模型权重也一并开源且允许商用,更可以在笔记本电脑、台式机、物联网、移动设备和云端等多个主流设备类型上运行。
而一直爱好“追逐潮流”的马斯克,当然也没有放过开源的风口。xAI推出的开源模型,专注于实现高效的机器学习算法。其大模型致力于提供更快速、节能的AI解决方案,以适应不断增长的计算需求和环境友好性的挑战。在应用方面,其也旨在通过优化算法和模型设计来降低大型语言模型的训练成本,从而推动更广泛的研究和应用。
同样作为致力于创建对话式人工智能模型的公司,Mistral AI的开源模型通常专注于自然语言处理(NLP)任务,如文本生成、情感分析和语言理解。他们提供的模型往往强调多语言支持和跨域功能,使它们能够在全球范围内的不同应用场景中发挥作用。Mistral AI的模型旨在通过高度的定制能力和可扩展性,帮助企业解决复杂的NLP问题。
在图像生成方面,StabilityAI因为其开源的稳定扩散模型而闻名。这些模型使用概率性方法来生成数据分布,特别适用于图像生成、艺术创作和数据增强等任务,通过提供易于使用的开源工具,让更多创作者和开发者参与到生成性AI领域的创新中来。
可以看到的是,多家科技巨头入局开源模型,意味着更多人愿意为构建一个更加智能、互联的世界贡献力量。然而,尽管开源模型带来的开放性、协同性,让大语言模型的发展不断加速,但与此同时,有关AI技术安全性和可控性的探讨,也比以往更加激烈。
对开源模型的争议,AI三巨头之一的杨立昆Yann LeCun给予了有理有据的回应,科学论文、代码的自由交换以及AI训练模型的公开共享使美国在科学技术领域保持领先地位。这个理念并非新颖,很久以前就有了。所以,开源技术推动了我们现在视为基础设施的系统,例如互联网和移动通信网络,取得了快速进步。
这并不意味着每个模型都可以或应该开放。专有模型和开源模型都有其作用,但开源基础模型应该是构建活力四射的生态系统的基石。开源模型创建了行业标准,就像90年代中期的互联网模型一样。通过这种协作努力,AI技术将更快地发展,变得更加可靠、更加安全。
同时,开源还为企业和研究人员提供了他们无法自行构建的工具,这有助于创造大量的社会和经济机会。换句话说,开源实现了对访问的民主化。它让更多的人和企业有能力利用最先进的技术,并弥补潜在的弱点。这也有助于促进民主价值观和制度,减少社会差距并改善竞争。
而反对开源的一派认为,开源AI会被不良行为者操纵。来自麻省理工学院和剑桥大学的科学家们曾发表过一篇论文,他们通过实验研究了持续模型权重的扩散是否会帮助恶意者利用更强大的未来模型来造成大规模伤害,结果发现,开源大模型的确可能存在风险。Anthropic 公司研究人员也曾发表论文警告称,AI中毒可能导致开源大模型变成潜伏的间谍。
开源和闭源之争,渐渐演变成一场宗教般的信仰之争,很难有人保持中立。可是,未来真如游戏《赛博朋克2077》那般,超级科技巨头荒坂集团掌控着大部分国家的政府及经济命脉,渗透进所有人生活的每个角落。那么,如果AI只掌控在几家科技公司手中,什么才是正确的答案?
对今天的世界来说,AI的技术发展是变革性的。一次次对于创新、商业化的“见证”,可能才是市场最需要的东西。
此次,Meta新一代Llama3模型发布,让大语言模型的多模态能力、生态化,有了更进一步的革新。
更重要的是在一次次的更迭中,我们站在科技变革的门槛上,得以窥见AI技术已经不再是冰冷的算法和数据的堆砌,而是拥有了更多元的感知能力和更为精准的社会理解。它预示着,未来的人工智能将更深入地融入我们的生活。这样的融入,也许在开源与闭源的辩论声中,显得有些暗淡,但在此刻,听到不同的声音和立场,感受技术进步带来的激烈碰撞,也许才是科技本身的意义。
参考资料:
1.Llama生态系统:过去、现在和未来 by Web3天空之城
2.LLaMA 1 模型架构、预训练、部署优化特点总结 by NewBee NLP 3.Llama 2 技术细节,来自Meta的最强可商用开源大模型 by 子非AI
4.Meta确认开源大模型LLaMA 3下个月登场,年底还将建成等同于60万个H100 GPU的“超级算力库” by 每日经济新闻
5.李彦宏给开源大模型泼冷水,他们却有不同看法 by 第一财经
6.ChatGPT vs LLaMa 2 差异性对比 by twt企业AI社区
7.Llama 3 发布!目前最强开源大模型,全面登陆 Meta 系产品,即将推出 4000 亿模型 by Founder Park
评论