小品一家人2024年10月12日发布:对话复旦大学教授肖仰华:这轮生成式AI泡沫早晚会破,天花板一定会到来|钛媒体AGI斗罗大陆第66集刚出就再遭群嘲,只因一点,原著党强烈要求重置

⭐发布日期:2024年10月12日 | 来源:小品一家人

⭐作者:丹尼·马斯特森 责任编辑:Admin

⭐阅读量:872 评论:2人

【2023年澳门今晚开什么】

【2023澳门今晚开什么】

【澳门最快最精准资料大全】 【澳门一肖一码100精准】 【澳门六开彩资料查询最新2024】 【2023香港特马开奖结果查询今天】 【2023年今晚澳门】 【新澳门彩4949最新开奖记录】 【管家婆一肖一码100%准】 【澳门2023全年资料免费看】
【2023一码一肖100%准确】 【管家婆精准一肖一码100%】 【管家婆一肖一码100正确】 【2023今晚澳门特马开】 【2024年澳彩免费公开资料】 【管家婆一肖一码资料大全】 【管家婆一肖一码取准确比必】 【香港二四六免费资料网站】

复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华

在Scaling Law(缩放定律)的“指引”下,AI大模型技术正朝着加大训练数据、加大算力投入、堆积参数等方向前进,模型一代代“膨胀”,因此,如何用更可靠的数据进行训练模型,正逐步成为AI大模型发展的根本性的、长期性的关键要素之一。

9月5日-7日举行的2024 Inclusion·外滩大会“从DATA for AI到AI for DATA”见解论坛上披露的Epoch AI数据显示,自2026年起,人类产生的新数据量将比模型学习的新数据量要少,预估到2028年,AI大语言模型将耗尽人类数据。

这意味着,无论是高质量的人类开放语料,还是互联网开源流通的信息语料,未来基于这些数据技术的模型效果最终将出现“瓶颈”,从而很难实现比人类更智能的通用人工智能(AGI)目标。

那么,如何用更优质的数据发展中国AI技术?高质量数据如何推高 AI 技术上限?

对此,9月6日下午,复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华与钛媒体AGI等少数媒体进行对话交流。

肖仰华教授认为,AI 大模型落地的本质仍然是数据工程。但当前,大模型发展过程中,其对数据的消耗和使用极为“粗放”,对数据的使用效率极为“低下”,和人类相比远远不足,同时,千亿大模型的数据可能存在极大“水分”,现在已经处于“大模型数据耗光”这一状态。因此,发展合成数据、私域数据、个人数据训练,可以进一步提升大模型的技术能力。

当前,AI 大模型技术领域,为了达到AGI,模语料数据规模变得“越来越大”。

以Meta公司发布的开源大模型Llama 3为例,其使用了15T Tokens,是古代世界最大图书馆——亚历山大图书馆70万册藏书(以每册10万字计,累计70G Tokens)规模的200多倍。

更早之前,OpenAI披露,GPT-3.5的文本数据多达45TB,相当于472万套中国四大名著(《三国演义》、《西游记》、《水浒传》、《红楼梦》),而GPT-4在之前训练数据集的基础上又增加了多模态数据,规模达数十万亿级Token。

尽管大模型所展现出的重要能力,得益于背后的海量数据、蕴含了丰富的知识和智能。然而,当前大模型仍面临“幻觉”、垂直行业信息缺乏等核心挑战。其中,大模型生成不正确、无意义或不真实的文本的“幻觉”现象,受到广泛关注,公开研究曾披露OpenAI GPT-4模型的错误率能达到20%以上,而造成这一现象的主要原因是大模型缺乏高质量数据支撑。

在一定程度上,数据决定了 AI 大模型“智能水平”的上限,但当前的千亿大模型当中,80%都是“水分”,即大量的语料数据都是无意义、错误率极高的信息。

所以,提高数据的质量和多样性等方式,对于未来大模型技术发展以及落地应用来说至关重要。

肖仰华现任复旦大学计算机科学技术学院教授、博导,上海市数据科学重点实验室主任,复旦大学知识工场实验室负责人,2009年获得复旦大学博士学位后留校任教,研究方向包括知识图谱、大模型以及社会科学启发下的人工智能等。

肖仰华在演讲中表示,当前大模型技术实现过程中,数据消耗了极大人力资源与资本投入,所以大模型落地的本质仍然是数据工程,数据在整个大模型技术体系中处于一个核心的基础地位。

因此,如果大模型真的要走向千行百业,必须要解决“幻觉”问题,背后则需要运用合成数据、私域数据、个人数据、小模型、知识图谱等技术方法,或协同方案。

“实际上,现在所谓的千亿大模型可能存在极大‘水分’,大多数参数可能只是在编码琐碎而杂多的事实,与大模型的智商关系不大。所以,我们有没有可能在这1000亿模型基础之上将‘水分’挤掉,把无用的知识全部榨干,只留下100亿、10亿最关键的数据参数,它将决定大模型理性能力的关键。被挤掉的‘水分’知识完全可以放在外部文档系统里,通过RAG系统能够在应用时检索到即可。”肖仰华对钛媒体AGI表示。

他坦言,越来越多的人仍然是把精力花在找更多的数据而非质量,已经存在一些研究成果表明5%的优质指令数据有可能会比100%的一般指令取得更好的大模型微调效果,所以大众不应该能再盲目追求数量,而是要去想一想数据质量如何提升。

对于数据消耗,肖仰华详细分析了三个形成基于高质量数据的模型技术方案:合成数据、私域数据、个人数据。

首先是合成数据。互联网数据虽然消耗殆尽,但人类可以在这个数据基础之上合成更多的数据,可以在原始数据上不断思考、反思、关联、融合,产生更多的数据。合成数据是很重要的思路,不仅只是为了缓解数据用光的问题,而且合成数据大部分是人类思考过程的数据,实际上可能比现在已经获取的数据更多。通过合成数据把大量隐性、没有记录、没有表达、过程的偏重思维的数据表达出来,这种数据对激发大模型的智商,或者理性能力至关重要。现在大模型其实只有知性,没有理性,因此,合成数据就是提升理性能力非常重要的一个思路。使用模拟思考过程的合成数据训练大模型,它才能知道应该怎么去思考问题,而合成数据既是为了缓解数据的“饥荒”,也是为了提升大模型理性能力。

第二是私域数据。人类更多高质量、高价值的数据是在私域(垂直行业)当中,如果使用私域数据训练大模型,可能会让大模型变成行业专家。因此,用好私域数据是很关键的因素,数据有待挖掘的潜力仍然十分之大。

最后是个人数据。个人数据用于训练大模型才刚刚开始,包括苹果在内的很多手机终端厂商,下一步一定是用个人数据和大模型结合。因此,如何把个性大数据和大模型结合好,变成个性化大模型,为每个人提供服务,对此未来还有很长的路要走。

不过,肖仰华也认为,当前数据要素市场尚不健全,使得私域数据的汇聚和交易流通也是困难重重,挑战非常之多。同时,大模型对数据利用的“贪婪程度”,也影响了数据的存储、生产、加工、流通、消费各个环节的技术走向。

“模型的评估、数据的筛选和模型的训练三件事应该是‘三位一体’的,我们需要注重数据的用法。”肖仰华称。

在肖仰华看来,AI大模型技术发展至今,仍然还处在一个非常早期的时代,从原理和源头上还完全缺乏理论和方法,而且大模型参数量变大,并没有让它的智商和理性能力所有增长。

“Scaling Law很快就会见到天花板,或者说我们要重新去看待Scaling Law。并且,我们要从源头上去梳理这些问题,去激发大模型的核心认知能力,提升大模型的理性水平。”肖仰华表示。

不过,部分学者对于合成数据的前景也有一些怀疑和争议。

9月6日,OpenAI创始成员、AI+教育公司Eureka Labs创始人安德烈·卡帕蒂(Andrej Karpathy)在播客节目 No Priors节目中表示,Transformer 还远没到自己的极限,新的改进和创新主要集中在数据集方面。尽管使用合成数据对于创造下一代大模型有很大帮助,但合成数据往往多样性和丰富度不足。

安德烈·卡帕蒂也承认,当前数十亿级参数量的大模型存在很多无用信息,他认为与互联网数据本身有关,因为其可能是由 0.001% 的认知数据和 99.999% 的相似或无用信息构成的。而当前的模型浪费了大量容量来记忆无关紧要的事情,原因是数据集没有经过精细化的调整(curation)。而真正用于思考的认知核心(cognitive core)可以非常小,如果它需要查找信息,它会知道如何使用不同的工具。未来,未来当下一代模型发挥作用时,它们会出现不同的分工,比如程序员、产品经理等。

另一方面,肖仰华表示反对“机器取代人类”的这一观点,他认为技术的所有进步和发展还是要“以人为本”,没有人的文明是没有意义的。

“现在大模型就很擅长,可以很容易做到一段文字一字不错。事实上,文字偶尔出错无伤大雅,重要的不是文字有否错别字,而是文字背后是否是真知灼见。我们在太多无意义的细枝末节浪费太多精力,而对事关宏旨的本质却又轻松放过。以大模型为代表的AGI的到来,粉碎了人类无意义的事项,倒逼人类回归价值本原。”肖仰华称。

展望未来下一代万亿级参数的GPT模型,肖仰华指出,未来也许大家并不需要过多的数据,只需精炼即可。然而,在此之前,人类可能需要通过万卡训练和打造万亿模型,以此来探索智能的极限。但早期的那些千亿、万亿的大模型,可能存在很大的 “水分”。所以,人类必须先拥有 “水分” 充足的大模型,然后才有可能挤出这些 “水分”,从而获得一个小而精的模型。最后,基于这个小而精的基座模型进行微调与训练,在小规模集群或单机上完成微调工作。

肖仰华强调,这波生成式大模型的泡沫早晚会破,天花板一定会到来。首先,人类产生优质数据的过程是相对缓慢的,大家不可能每天都产生对于世界的重大新认识,优质数据的缓慢生产速度为成为大模型发展的天花板。其次,合成数据的质量控制仍存在不少技术挑战,且合成数据是基于原始真实数据推理而产生的,因此也会限制大模型获得本质新颖的知识与能力,也就是大模型会遭遇所谓的演绎闭包困难。最后,即便训练出来了参数规模是人脑的10倍、100倍的超级大模型,人类当下的智识水平可能限制我们去认识这样一个超级智能形态。这样一个可能的超级存在也就与人类无关。试想一下,如果蚂蚁文明举全体蚂蚁世界之力造出了人类水平的智能,那么这个相对于蚂蚁而言神一样的智能体一定是忙于探索星辰大海,去接近或实现一个更高的存在,而无暇去关照自己的造物主。

“AI 好比一个照妖镜,将人类社会一切没有价值的事情进行摧毁,倒逼大家去做真正有价值和有意义的事情。因此,AI 的未来发展倒逼所有行业回归价值本原,要让人类做真正有价值的事。”肖仰华表示。

(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)

【2023澳门精准正版资料大全】 【澳门资料大全正版资料2023年】
【澳门管家婆今晚正版资料】 【澳门今晚必中一肖一码准确9995】
【2023今晚香港开特马开什么】 【2023今晚澳门开特马.】
【2024年新奥门王中王资料】 【新澳管家婆资料2023大全】
【2023正版资料全年免费公开三】 【2024年澳彩综合资料大全】
【澳门管家婆一肖一码100精准】 【2024年新澳开奖结果】 【新澳彩历史开奖记录大全查询】
上一条新闻 下一条新闻

推荐文章

发表评论

普路特·泰勒·文斯

6秒前:以Meta公司发布的开源大模型Llama 3为例,其使用了15T Tokens,是古代世界最大图书馆——亚历山大图书馆70万册藏书(以每册10万字计,累计70G Tokens)规模的200多倍。

IP:91.83.6.*

雷佳音

4秒前:最后是个人数据。

IP:56.66.8.*

王紫霏

6秒前:”肖仰华称。

IP:12.11.9.*

小品一家人APP介绍

APP图标

新澳门彩历史开奖记录走势图APP名:小品一家人

版本:V6.61.376

更新时间:2024-10-11 15:20

澳门今晚一肖码100准管家娶这是一个功能强大的管家婆一码中一肖资料大全APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:其次,合成数据的质量控制仍存在不少技术挑战,且合成数据是基于原始真实数据推理而产生的,因此也会限制大模型获得本质新颖的知识与能力,也就是大模型会遭遇所谓的演绎闭包困难。

2024香港最新资料APP介绍

APP图标

2023今晚必开一肖一码APP名:小品一家人

版本:V8.42.948

更新时间:2024-10-11 24:19

无论是新澳门彩天天开奖资料一快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

2024管家婆开奖结果APP介绍

APP图标

澳门今晚一肖码10O准管家娶APP名:小品一家人

版本:V8.56.385

更新时间:2024-10-11 19:17

2024香港正版挂牌应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

黄大仙一肖一码开奖37BAPP介绍

APP图标

一码一肖100准今晚澳门APP名:小品一家人

版本:V6.43.949

更新时间:2024-10-11 19:13

新澳开奖记录今天结果这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

2023澳门天天开好彩大全APP介绍

APP图标

2023澳彩资料免费大全APP名:小品一家人

版本:V1.51.543

更新时间:2024-10-11 22:16

这是一款功能强大的管家婆一码一肖资料大全五福生肖应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:这样一个可能的超级存在也就与人类无关。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

2024新澳免费资料公式APP介绍

APP图标

2023资料免费大全APP名:小品一家人

版本:V2.32.200

更新时间:2024-10-11 15:15

这是一款功能强大的新澳历史开奖最新结果查询今天应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:安德烈·卡帕蒂也承认,当前数十亿级参数量的大模型存在很多无用信息,他认为与互联网数据本身有关,因为其可能是由 0.,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

澳门4949资料免费大全APP介绍

APP图标

管家婆精准资料大全怎么样APP名:小品一家人

版本:V7.73.621

更新时间:2024-10-11 13:23

这是一款功能强大的今晚澳门开码开奖结果应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:被挤掉的‘水分’知识完全可以放在外部文档系统里,通过RAG系统能够在应用时检索到即可。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

2023澳门全年资料免费大全APP介绍

APP图标

新澳好彩免费资料查询APP名:小品一家人

版本:V3.29.486

更新时间:2024-10-11 17:20

今天的最新动态包括:首先,人类产生优质数据的过程是相对缓慢的,大家不可能每天都产生对于世界的重大新认识,优质数据的缓慢生产速度为成为大模型发展的天花板。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

2024年新奥门王中王开奖结果APP介绍

APP图标

新澳彩资料免费资料大全33图库APP名:小品一家人

版本:V8.69.741

更新时间:2024-10-11 24:16

这是一款功能强大的管家婆一肖一码精准资料应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:合成数据是很重要的思路,不仅只是为了缓解数据用光的问题,而且合成数据大部分是人类思考过程的数据,实际上可能比现在已经获取的数据更多。。

澳门一肖一码100%精准一APP介绍

APP图标

2024新澳今晚资料APP名:小品一家人

版本:V2.29.771

更新时间:2024-10-11 20:17

这款功能强大的2023澳门六开彩资料免费大全应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

494949澳门今晚开什么APP介绍

APP图标

4949澳门精准免费大全APP名:小品一家人

版本:V6.21.941

更新时间:2024-10-11 23:23

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

2024年新奥开什么今晚APP介绍

APP图标

2023澳门资料大全正版资料APP名:小品一家人

版本:V5.68.212

更新时间:2024-10-11 18:14

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。