ChatGPT o1(也称为 Strawberry)的近期发布,为整个人工智能 (AI) 领域带来了新的发展方向。新的 o1 模型不仅有望为改进 LLM 功能提供一种新颖的方法,而且在回答复杂问题方面也更加有效。 OpenAI 为其 Pro、Plus 和 Team 用户推出了两款型号,全新完整版 o1 和迷你版 o1。 这些推理能力为任何主动采用新 OpenAI o1 模型的企业提供了竞争优势。 那么,让我们看看这个模型与目前提供的其他模型相比如何,我们将介绍: OpenAI o1 是什么? OpenAI o1 与 ChatGPT 4 与人类专家的对比 对客户服务行业的益处 OpenAI o1 的用例 关于 OpenAI o1 的最终思考
OpenAI o1 是什么?
OpenAI o1 是一系列新的人工智能模型,旨在通过在响应之前花费更多时间思考来解决复杂的推理任务,例如科学、数学和编码挑战。
o1 Mini 是一款较小的型号,能够 whatsapp 号码数据 进行推理,同时计算效率高。
目前,这些模型的价格为每 100 万个输入令牌 15 美元,每 100 万个输出令牌 60 美元。
如果您是用户,您可以使用 Plus 和 Team 套餐中速率限制较低的 o1(分别为每月 20 美元和 30 美元)。您也可以在 Pro 套餐中获得更高的速率限制(每月 200 美元)。正如 Sam Altman 在推特上澄清的那样,Pro 套餐专为 ChatGPT 的高级用户而设计。
OpenAI LLM 课程分为三个阶段
1. 预训练 预训练是一个计算成本高昂的阶段,在这个阶段,Transformer 需要基于大量未标记数据进行训练。然而,模型中预训练的数量存在两个限制: a.数据稀缺——2024年 7 月的一项研究估计,到 2025 年,将有更多人类生成的高质量数据来训练新模型。 b.计算成本——一种名为 GPT-MoE 的先进模型 (SOTA),在 1.8 T 代币上进 符拉迪沃斯托克的有组织犯罪集 行训练,需要全天候访问 8000 个 H100 GPU 长达 90 天。 2.培训 这是学习强化学习和微调模型所花费的时间。通常,这需要人工不断改进这些模型的响应,以及一个机器学习奖励模型,该模型会随着时间的推移不断优化模型。OpenAI 推出了PPO 算法,它可以优化这些模型。 3.推理 这是回答问题所需的时间。通常,模型会识别问题的上下文,然后利用该上下文来制定答案。
OpenAI o1 的创新是什么?
迄今为止,LLM 构建的大部分重点都集中在预训练过程上。当时的工作假设是,如果能够在预训练期间向 LLM 输入高质量的数据,它就能更好地推理。 OpenAI o1优化了训练和推理时间。 训练 OpenAI strawberry (o1) 已经接受了先进(专有)RL 算法的训练,以最大限度地提高准确性和推理能力。 这使得它能够在竞争任务中胜 尼日利亚号码 过人类专家,并参加CodeForces的比赛并获胜。 推理 与之前的模型不同,OpenAI o1 在回答问题之前会“思考”。具体来说,它会将复杂的问题分解成小部分,理解上下文,并给出合理的答案。 这使得它能够解决竞争性数学问题(在AIME级别)。 这些推理能力推动了 OpenAI o1 的发展,使其能够在多项评估中以与人类专家相同的水平回答复杂问题。 让我们看看该模型与同级别的其他模型相比表现如何。
OpenAI o1 与 ChatGPT 4-ov 人类专家
由于 OpenAI o1 的能力与之前的基础模型相比相当明显,因此 OpenAI 设计了新的测试来评估该模型。 1. AIME——美国邀请数学考试是一项用于选拔国际数学奥林匹克参赛队的全国性考试。o1 针对 2024 年 AIME 考试的题目进行了测试。 2. Codeforces – Codeforces 全年为国际参赛者举办多项编程挑战赛,比赛结果将用于评估全球参赛者。 3. GPQA-Diamond –研究生级别的 Google-Proof 问答框架提供了 448 个博士级别的问题,而人类专家的准确率仅为 74%。