马斯克首个AI工具Grok命名有何深意?ChatGPT给出完美解答人工智能
CIO智库消息,当地时间周五,马斯克的人工智能公司xAI向有限的用户发布了其第一款人工智能产品Grok,很多网友都在猜测这个名字有何深意。
一位X用户发帖,分享了ChatGPT对这个问题的解答。
该用户写道:“埃隆·马斯克称他的新人工智能为‘grok’。那么grok是什么意思呢。”
以下是ChatGPT的回答:
“‘grok’一词来自罗伯特·安森·海因莱因1961年的科幻小说《异乡异客》。在这本书的上下文中,‘grok’是一个火星词,意思是完全理解某事或某人,以至于观察者成为被观察对象的一部分——在群体体验中合并、融合、通婚、失去身份。这是一种深刻的,近乎形而上的理解。
在现代用法中,特别是在科技和极客文化中,‘grok’的意思是凭直觉理解某事或通过移情,与某人或某事建立融洽的关系,或与某人产生如此深刻的共鸣,就好像你与他们融为一体。它通常用来表示对软件编程、技术或复杂主题的深刻理解。”
对于ChatGPT给出的这一解答,马斯克本人回应称:“完全正确。”
关于grok
(以下内容来自xAI官网)Grok 是一个以《银河系漫游指南》为蓝本的 AI,因此几乎可以回答任何事情,更难的是,甚至可以建议要问什么问题!
Grok 旨在以一点机智的方式回答问题,并且具有叛逆的倾向,所以如果您讨厌幽默,请不要使用它!
Grok 的一个独特而根本的优势是它通过 X 平台实时了解世界。它还将回答大多数其他人工智能系统拒绝的辛辣问题。
Grok 仍然是一个非常早期的测试版产品——我们经过 2 个月的培训可以做到的最好——所以期待它在你的帮助下每周都能迅速改进。
我们为什么要建造 Grok
在 xAI,我们希望创建人工智能工具,帮助人类寻求理解和知识。
通过创建和改进Grok,我们的目标是:
- 收集反馈并确保我们正在构建能够最大限度地造福全人类的 AI 工具。我们认为,设计对各种背景和政治观点的人都有用的人工智能工具非常重要。我们还希望在遵守法律的前提下,使用我们的 AI 工具为我们的用户提供支持。我们与Grok的目标是在公开场合探索和展示这种方法。
- 赋能研究和创新:我们希望 Grok 成为任何人的强大研究助手,帮助他们快速访问相关信息、处理数据并提出新想法。
我们的最终目标是让我们的人工智能工具协助追求理解。
Grok-1之旅
为Grok提供动力的引擎是Grok-1,这是我们在过去四个月中开发的前沿LLM。在这段时间里,Grok-1经历了多次迭代。
在宣布 xAI 之后,我们训练了一个具有 330 亿个参数的原型 LLM (Grok-0)。这个早期模型在标准 LM 基准测试上接近 LLaMA 2 (70B) 功能,但只使用了一半的训练资源。在过去的两个月里,我们在推理和编码能力方面取得了重大改进,最终推出了 Grok-1,这是一种功能更强大的最先进的语言模型,在 HumanEval 编码任务中实现了 63.2%,在 MMLU 上实现了 73%。
为了了解我们对 Grok-1 所做的能力改进,我们使用一些旨在衡量数学和推理能力的标准机器学习基准进行了一系列评估。
GSM8k:中学数学单词问题,(Cobbe 等人,2021 年),使用思维链提示。
MMLU:多学科多项选择题(Hendrycks 等人,2021 年),提供了 5 个镜头的上下文示例。
HumanEval:Python 代码完成任务,(Chen 等人,2021 年),pass@1评估为零样本。
数学:用 LaTeX 编写的初中和高中数学问题(Hendrycks 等人,2021 年),使用固定的 4 次提示进行提示。
基准 | 格罗克-0 (33B) | LLaMa 2 70B | 拐点-1 | GPT-3.5型 | 格罗克-1 | 棕榈 2 | 克劳德 2 | GPT-4型 |
---|---|---|---|---|---|---|---|---|
GSM8k的 | 56.8% 8 发 |
56.8% 8 发 |
62.9% 8 发 |
57.1% 8 发 |
62.9% 8 发 |
80.7% 8 发 |
88.0% 8 发 |
92.0% 8 发 |
MMLU系列 | 65.7% 5 发 |
68.9% 5 发 |
72.7% 5 发 |
70.0% 5 发 |
73.0% 5 发 |
78.0% 5 发 |
75.0% 5 次 + CoT |
86.4% 5 发 |
HumanEval | 39.7% 0 次射击 |
29.9% 0 次射击 |
35.4% 0 次射击 |
48.1% 0 次射击 |
63.2% 0 次射击 |
- | 70% 0 次射击 |
67% 0 次射击 |
数学 | 15.7% 4 发 |
13.5% 4 发 |
16.0% 4 发 |
23.5% 4 发 |
23.9% 4 发 |
34.6% 4 发 |
- | 42.5% 4 发 |
在这些基准测试中,Grok-1 表现出强劲的结果,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源进行训练的模型才能超越它。这展示了我们在 xAI 以极高的效率训练 LLM 方面取得的快速进展。
由于这些基准可以在网络上找到,我们不能排除我们的模型是无意中训练的,因此我们在 2023 年匈牙利全国高中数学期末考试中对模型(以及 Claude-2 和 GPT-4)进行了手工评分,该期末考试于 5 月底发布,在我们收集了数据集后。Grok 以 C (59%) 通过了考试,而 Claude-2 获得了相同的成绩 (55%),GPT-4 以 68% 的成绩获得了 B。所有模型均在温度为0.1和相同提示下进行评估。必须指出的是,我们没有为这次评估做出任何调整。这个实验是对我们的模型从未明确调整过的数据集的“现实生活”测试。
人工分级评估 | 格罗克-0 | GPT-3.5型 | 克劳德 2 | 格罗克-1 | GPT-4型 |
---|---|---|---|---|---|
匈牙利国家高中数学考试(2023年5月) | 37% 1 次 |
41% 1 次 |
55% 1 次 |
59% 1 次 |
68% 1 次 |
我们在模型卡中提供了 Grok-1 重要技术细节的摘要.
xAI 的工程设计
在深度学习研究的前沿,必须像构建数据集和学习算法一样谨慎地构建可靠的基础设施。为了创建 Grok,我们构建了一个基于 Kubernetes、Rust 和 JAX 的自定义训练和推理堆栈。
法学硕士培训就像一列货运列车在前方轰鸣;如果一节车厢脱轨,整列火车就会被拖离轨道,很难再次直立。GPU 失败的方式有很多种:制造缺陷、连接松动、配置不正确、内存芯片退化、偶尔的随机位翻转等等。在训练时,我们会连续数月在数以万计的 GPU 之间同步计算,并且由于规模的原因,所有这些故障模式都变得频繁。为了克服这些挑战,我们采用了一套定制的分布式系统,确保立即识别并自动处理每种类型的故障。在 xAI,我们将最大限度地提高每瓦有用计算能力作为我们工作的重点。在过去的几个月里,我们的基础设施使我们能够最大限度地减少停机时间,即使在硬件不可靠的情况下也能保持较高的模型浮点运算利用率 (MFU)。
Rust 已被证明是构建可扩展、可靠和可维护的基础设施的理想选择。它提供了高性能、丰富的生态系统,并防止了人们通常会在分布式系统中发现的大多数错误。鉴于我们的团队规模较小,基础设施的可靠性至关重要,否则,维护工作会扼杀创新。Rust 让我们相信,任何代码修改或重构都可能产生工作程序,这些程序将在最少的监督下运行数月。
我们现在正在为模型能力的下一次飞跃做准备,这将需要可靠地协调数以万计的加速器上的训练运行,运行互联网规模的数据管道,并在 Grok 中构建新的功能和工具。