证券之星2024年10月12日发布:如何理解OpenAI o1

⭐发布日期:2024年10月12日 | 来源:证券之星

⭐作者:劳拉·穆拉凯 责任编辑:Admin

⭐阅读量:702 评论:5人

【2024天天六开彩免费资料】

【香港最准内部免费公开的功能介绍】

【944cc天下彩正版资料的特点】 【二四六期期准结果查询】 【刘伯温五肖五码期期准】 【澳彩资料免费的资料大全wwe】 【4949澳门彩开奖结果发现】 【香港今晚开奖结果号码2024年3期】 【2024新奥开奖记录】 【新奥历史开奖记录】
【二四六天天免费资料结果】 【2024新奥彩开奖结果记录】 【7777888888精准管家婆香港】 【2024澳门天天开好彩大全开奖记录127期】 【澳彩开奖记录-2024年开奖记录】 【新澳门资料免费提供】 【二四六天空好彩944cc资讯】 【2024澳门最精准龙门客栈】

一.OpenAI o1是大模型的巨大进步

我觉得OpenAI o1是自GPT 4发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比我想的要好,GPT 4o和o1是发展大模型不同的方向,但是o1这个方向更根本,重要性也比GPT 4o这种方向要重要得多,原因下面会分析。

为什么说o1比4o方向重要?这是两种不同的大模型发展思路,说实话在看到GPT 4o发布的时候我是有些失望的,当时以为OpenAI会优先做o1这种方向,但是没想到先出了GPT 4o。GPT 4o本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题,对于提升大模型的智力水平估计帮助不大;而o1本质上是在探索大模型在AGI路上能走多远、天花板在哪里的问题,很明显第二个问题更重要。

GPT 4o的问题在于本身大模型的智力水平还不够高,所以做不了复杂任务,导致很多应用场景无法实用化,而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是很难的,尽管确实能拓展更丰富的多模态应用场景,但这类数据弥补的更多是大模型对外在多模态世界的感知能力,而不是认知能力。提升大模型认知能力主要还要靠LLM文本模型,而提升LLM模型认知能力的核心又在复杂逻辑推理能力。LLM的逻辑推理能力越强,则能解锁更多复杂应用,大模型应用的天花板就越高,所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情,没有之一。

o1模型能力越强,则可以反哺基座模型。通过直接用o1基座模型替换GPT 4o的基座、或者利用o1模型生成逻辑推理方面的合成数据增强GPT 4o(或 GPT-5)、再或者用o1蒸馏GPT 4o模型….. 等等,能玩的花样应该有很多,都可以直接提升未来模型的复杂任务解决能力,从而解锁更复杂的多模态应用场景。OpenAI未来计划两条线,一条是o1,一条是GPT 4o及之后的多模态大模型(比如GPT-5),它的内在逻辑大概应该是这样的,就是说通过o1增强最重要的基座模型逻辑推理能力,而再把这种能力迁移到GPT 4o/GPT-5这种多模态通用模型上。

OpenAI o1的做法本质上是CoT的自动化or内化。我们知道,通过CoT把一个复杂问题拆解成若干简单步骤,这有利于大模型解决复杂逻辑问题,但之前主要靠人工写CoT来达成。从用户提出的问题形成树的根结点出发,最终走到给出正确答案,可以想像成类似AlphaGo下棋,形成了巨大的由COT具体步骤构成的树形搜索空间,这里COT的具体步骤的组合空间是巨大的,人写的COT未必最优。如果我们有大量逻辑数据,是由<问题,明确的正确答案>构成,则通过类似AlphaGo的Monte Carlo Tree Search(MCTS)搜索+强化学习,确实是可以训练大模型快速找到通向正确答案的COT路径的。而问题越复杂,则这个树的搜索空间越大,搜索复杂度越高,找到正确答案涉及到的COT步骤越多,则模型生成的COT就越复杂,体现在o1的速度越慢,生成的COT Token数越多。很明显,问题越复杂,o1自己生成的隐藏的COT越长,大模型推理成本越高,但效果最重要,成本其实不是问题,最近一年大模型推理成本降低速度奇快,这个总有办法快速降下去。

从上面o1的做法可以知道Prompt工程会逐渐消亡。之前解决复杂问题,需要人写非常复杂的Prompt,而o1本质上是COT等复杂Prompt的自动化,所以之后是不太需要用户自己构造复杂Prompt的。本来让用户写复杂Prompt就是不人性化的,所有复杂人工环节的自动化,这肯定是大势所趋。

Agent目前还是很难,但前途光明。目前Agent无法实用化的主要原因就在于基座模型的复杂推理能力不够强。如果通过基座模型Plan把一个复杂任务分解为10个步骤,哪怕单个步骤的正确率高达95%,要想最后把任务做对,10个环节的准确率连乘下来,最终的正确率只有59%,惨不忍睹。那有了o1是不是这个方向就前途坦荡?也是也不是,o1的Model Card专门测试了Agent任务,对于简单和中等难度的Agent任务有明显提升,但是复杂的、环节多的任务准确率还是不太高。就是说,不是说有了o1 Agent就现状光明,但是很明显o1这种通过Self Play增强逻辑推理能力的方向应该还有很大的发展潜力,从这个角度讲说Agent未来前途光明问题应该不大。

OpenAI很多时候起到一个行业指路明灯的作用,往往是第一个证明某个方向是行得通的(比如ChatGPT、GPT 4、Sora、GPT 4o包括这次的o1),然后其他人开始疯狂往这个方向卷,到后来甚至卷的速度太快把OpenAI都甩到后面吃尾气。典型例子就是Sora,如果OpenAI不是出于阻击竞争对手秀一下肌肉,大家都没有意识到原来这个方向是可以走这么远的,但当意识到这一点后,只要你专一地卷一个方向,方向明确且资源聚焦,是可能赶超OpenAI的。Sora至今仍然是“期货状态”,而谷歌和国内厂商有些跑的很快(虽然OpenAI多模态能力依然可能领先)。主要OpenAI想做的方向太多,资源分散导致分到具体一个方向的资源不够用,所以越往后发展“期货状态”的方向越多,也让人觉得尽显疲态。

OpenAI o1等于给大家又指出了一个前景光明的方向,估计后面大家又开始都往这个方向卷。我觉得卷这个方向比去卷GPT 4o和视频生成要好,虽然具体怎么做的都不知道,但是大方向清楚且效果基本得到证明,过半年肯定头部几家都能摸清具体技术追上来,希望能再次让OpenAI吃尾气。而且这个方向看上去资源耗费应该不会特别大,偏向算法和数据一些,数据量规模估计不会特别巨大,卷起来貌似成本低一些。这是个卷的好方向。


预训练Scaling Law的来源、o1提到的RL Scaling law

粗分的话,大语言模型最基础的能力有三种:语言理解和表达能力、世界知识存储和查询能力以及逻辑推理能力(包括数学、Coding、推理等理科能力,这里Coding有一定的特殊性,是语言能力和逻辑掺杂在一起的混合能力,Coding从语言角度可以看成一种受限的自然语言,但是混杂着复杂的内在逻辑问题。从语言角度看,Coding貌似是容易解决的,从逻辑角度看又相对难解决。总之,Coding目前看是除了语言理解外,大模型做得最好的方向)。

语言理解和表达是LLM最强的能力,初版ChatGPT就可以完全胜任各种纯语言交流的任务,基本达到人类水准,目前即使是小模型,在这方面比大模型能力也不弱;世界知识能力虽说随着模型规模越大效果越好,但幻觉问题目前无法根治,这是制约各种应用的硬伤之一;逻辑推理能力一直都是LLM的弱项,也是最难提升的方面,从GPT 4开始往后,如何有效并大幅提升LLM的逻辑推理能力是体现不同大模型差异和优势的最核心问题。所以,大模型最重要的一个是世界知识方面如何有效消除幻觉,一个是如何大幅提升复杂逻辑推理能力。语言能力已不是问题。

基于以上能力分类,我们来说说Scaling law。现在普遍认为通过增加数据和模型规模来提升大模型效果的Scaling law模式,其增长速度在放缓。其实我们对照下大模型的三个基础能力的能力来源,基本就能看出来这是为啥(以下是我猜的,不保真):

本质上大模型的能力来源都来自训练数据,包含能体现这方面能力的训练数据越多,则这种能力越强。语言能力不用说了,任意一份预训练数据,其中都包含相当比例的语言的词法句法等成分,所以训练数据中体现语言能力的数据是最多的,这也是为何大模型的语言能力最强的原因。

而数据中包含的世界知识含量,基本是和训练数据量成正比的,明显数据量越多,包含的世界知识越多,Scaling law是数据中包含的世界知识含量关系的一个体现,但是这里有个问题,大模型见过越多数据,则新数据里面包含的新知识比例越小,因为很多知识在之前的数据里都见过了,所以随着数据规模增大,遇到的新知识比例就越低,在世界知识方面就体现出Scaling law的减缓现象。

而为啥逻辑推理能力最难提升?因为能体现这方面的自然数据(代码、数学题、物理题、科学论文等)在训练数据中比例太低,自然大模型就学不好,尽管通过不断增加数据,能增加逻辑推理方面数据的绝对数量,但因为占比太少,这方面提升的效果和增加的总体数据规模就不成比例,效果也不会太明显,就体现在逻辑推理能力Scaling law看上去的放缓。这是很自然的。这也是为何现在为了提高模型逻辑能力,往往在预训练阶段和Post-training阶段,大幅增加逻辑推理数据占比的原因,且是有成效的。

所以目前大模型的核心能力提升,聚焦到不断通过合成数据等方式构造更多比例的逻辑推理数据。但是大部分逻辑推理数据的形式是<问题,正确答案>,缺了中间的详细推理步骤,而o1本质上是让大模型学会自动寻找从问题到正确答案的中间步骤,以此来增强复杂问题的解决能力。

OpenAI o1提到了关于RL在训练和推理时候的Scaling law,并指出这与预训练时候的Scaling law具有不同特性。很明显,如果o1走的是MCTS搜索技术路线,那么把COT拆分的越细(增加搜索树的深度),或提出更多的可能选择(节点的分支增多,就是说树的宽度越宽),则搜索空间越大,找到好COT路径可能性越大,效果越好,而训练和推理的时候需要算力肯定越大。看上去有着效果随着算力增长而增长的态势,也就是所谓的RL的Scaling law。这其实是树搜索本来应有之义,我倒觉得把这个称为RL的Scaling law有点名不副实 。

【管家婆2024正版资料图38期】 【2024澳门资料大全免费808】
【今晚必出一肖一码】 【2024香港历史开奖记录今天】
【9944CC天天彩二四六免费大全】 【2024澳彩开奖结果今晚】
【新澳门今天开奖结果】 【2024年新澳门六开彩开奖结果查询】
【澳门马今期开奖结果】 【澳门开奖结果出来】
【2024年澳门管家婆免费资料查询】 【澳门特马今期开奖结果查询】 【澳门资料大全免费今日生肖亮东方】
上一条新闻 下一条新闻

推荐文章

发表评论

吴家骧

1秒前:这也是为何现在为了提高模型逻辑能力,往往在预训练阶段和Post-training阶段,大幅增加逻辑推理数据占比的原因,且是有成效的。

IP:93.79.6.*

卡梅隆·莱昂

4秒前:Sora至今仍然是“期货状态”,而谷歌和国内厂商有些跑的很快(虽然OpenAI多模态能力依然可能领先)。

IP:77.61.7.*

雅英

4秒前:所以,大模型最重要的一个是世界知识方面如何有效消除幻觉,一个是如何大幅提升复杂逻辑推理能力。

IP:92.19.6.*

证券之星APP介绍

APP图标

澳门六开奖现场直播+开奖结果查询APP名:证券之星

版本:V6.78.283

更新时间:2024-10-11 19:23

2024澳门今晚开码这是一个功能强大的2024新澳门的资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:现在普遍认为通过增加数据和模型规模来提升大模型效果的Scaling law模式,其增长速度在放缓。

新澳精准资料免费提供APP介绍

APP图标

新澳今晚开什么号码APP名:证券之星

版本:V3.41.937

更新时间:2024-10-11 20:16

无论是2024新澳门开奖快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

2O24澳门天天开好彩大全APP介绍

APP图标

2024澳门今晚开什么号码APP名:证券之星

版本:V8.25.559

更新时间:2024-10-11 22:16

新澳门彩开奖结果记录历史应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

新澳门管家婆免费开奖大全APP介绍

APP图标

澳门今晚必开一肖APP名:证券之星

版本:V5.32.655

更新时间:2024-10-11 23:16

新澳门六开彩今晚开奖这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

新澳门彩最新开奖记录查询表下载APP介绍

APP图标

新澳精准资料免费提供濠江论坛APP名:证券之星

版本:V1.27.542

更新时间:2024-10-11 19:15

这是一款功能强大的香港最近十五期开奖记录应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:.。无论是获取信息还是提升效率,这款APP都是您理想的助手。

澳门管家婆-肖一码APP介绍

APP图标

澳门最精准正最精准龙门蚕APP名:证券之星

版本:V5.86.463

更新时间:2024-10-11 20:23

这是一款功能强大的7777788888管家婆一肖码应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:语言能力不用说了,任意一份预训练数据,其中都包含相当比例的语言的词法句法等成分,所以训练数据中体现语言能力的数据是最多的,这也是为何大模型的语言能力最强的原因。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

新澳门天天开结果APP介绍

APP图标

新奥门2024年资料大全官家婆APP名:证券之星

版本:V2.24.371

更新时间:2024-10-11 21:16

这是一款功能强大的2024澳门开什么特马应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:这是个卷的好方向。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

管家婆四肖四码APP介绍

APP图标

2024澳门天天六开彩结果APP名:证券之星

版本:V5.99.937

更新时间:2024-10-11 18:18

今天的最新动态包括:OpenAI o1提到了关于RL在训练和推理时候的Scaling law,并指出这与预训练时候的Scaling law具有不同特性。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

澳门6合开彩开奖结果今天查询APP介绍

APP图标

新澳最新最快资料22码APP名:证券之星

版本:V2.59.309

更新时间:2024-10-11 19:17

这是一款功能强大的2024新奥历史开奖记录69期应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:而为啥逻辑推理能力最难提升?。

澳门正版资料免费大全新闻最新大神APP介绍

APP图标

2024年新澳门六开今晚开奖直播APP名:证券之星

版本:V6.13.612

更新时间:2024-10-11 20:24

这款功能强大的新澳门开奖记录今天开奖结果应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

澳门开奖结果202433期查询APP介绍

APP图标

2004新澳门天天开好彩APP名:证券之星

版本:V4.92.691

更新时间:2024-10-11 20:17

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

2024全年经典资料大全APP介绍

APP图标

新澳门历史开号记录APP名:证券之星

版本:V7.16.159

更新时间:2024-10-11 18:24

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。