微信公众号2024-10-19 06:28:09发布:认知与可持续学习:预训练模型的技术展望

⭐发布日期:2024-10-19 06:28:09|来源:微信公众号

⭐作者:格热戈日·马莱基责任编辑:Admin

⭐阅读量:455评论:3人

【2024年新澳门天天开彩大全}】

【新澳门精准四肖期期中特公开】

【新奥门天天开奖资料大全】【管家婆一码中一肖2014】【新澳天天开奖资料大全最新】【2024澳门天天开好彩大全53期】【新澳天天开奖资料大全最新54期】【2024年澳门特马今晚开码】【2024年新澳门天天彩开彩结果】【澳门六开彩资料免费大全网站】
【2004新澳门天天开好彩】【62519c.cσm查询奥彩】【2024天天彩正版资料大全】【老澳门六开彩结果记录】【澳门六开彩天天开奖结果生肖卡】【2024澳门天天彩期期精准】【澳门最精准免费资料大全旅游团】【野猪凌晨闯进南京一烧烤店】

大规模预训练模型近年来快速发展,在自然语言处理领域引发范式变迁, 但仍然有很多挑战问题亟待解决:(1)如何赋予大规模预训练模型认知能力,(2)如何整合不同预训练模型实现模型动态演化。本文将介绍预训练模型在认知计算和持续学习方面的前沿动态,并展望未来发展方向。

认知计算

认知计算的发展主要着眼于统一序列建模、认知网络框架以及神经-符号结合模型。

统一序列建模

自然语言处理的任务类型多种多样,总的来说可分为两大类:自然语言理解(Natural Language Understanding,NLU)与自然语言生成(Natural Language Generation,NLG)。这两大类任务各具特点,因此需要不同的模型结构进行处理;但同时,从认知科学的角度来看,它们又相互紧紧关联在一起,理解型任务(如开放域问答)需要对答案进行生成,而生成型任务(如长文本生成)需要语言中的知识和常识作为支撑。如何进行统一序列建模是一个重要的问题。

在预训练语言模型中,两大著名的模型结构BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码器表征模型)和GPT(Generative Pre-Training,生成式的预训练),在广泛的应用中被证明分别适用于理解型和生成型任务。因为BERT在结构设计之初就是一个双向掩码自编码模型,适合从上下文两个方向获取需要的信息;而GPT则是一个单向因果掩码自回归模型,适合从左到右生成流畅的文本。基于微调(fine-tuning)的NLU榜单都表明,GPT这样的单向模型在理解任务上表现远逊于同等规模的BERT。这也加深了人们对于理解/生成任务无法统一的偏见。

不过,近期来自清华、智源悟道预训练团队的最新工作P-tuning[1]打破了这一成见,首次证明了GPT在NLU任务上可以打平乃至超越同等规模的BERT模型。同时,P-tuning还在知识探测和SuperGLUE小样本学习榜单上登顶。P-tuning受启发于GPT-3的小样本学习方法:基于人工构建的提示(prompt)模板,将理解任务转化生成任务执行。然而,人工构建的提示模板非常费时费力,而且非常脆弱。如表1所示,提示模板中一个词的变化就会造成相关任务性能(P@1)的显著改变。一个重要的原因是,预训练语言模型本身进行连续的数值计算,但基于自然语言的提示模板处于离散空间,容易造成结果的不稳定突变。

为了应对这一挑战,P-tuning大胆放弃了在离散空间中构建模板的传统思路,转而去自动化地构建连续空间中的提示模板。如图1所示,除了保留个别与任务相关的锚标识符(anchor,如图中的capital),其他的提示符均为可训练的向量。P-tuning在LAMA知识探测任务相比之前模型取得了近20%的绝对提升,并在SuperGLUE监督学习榜单上证明了GPT也具有强有力的自然语言理解能力。

同时,P-tuning对BERT类模型在监督学习和少样本学习上也有提升。基于P-tuning的ALBERT模型在少样本SuperGLUE上成功地击败了参数规模大近百倍的GPT-3,并在榜单上登顶。

P-tuning提供了一种在现有模型基础上统一序列建模任务的下游微调方法。然而,考虑到理解和生成在人类认知中的紧密关系,人工智能领域的研究者们一直在思考如何在底层设计更通用的语言模型来同时处理理解和生成型的任务。最早做出这种尝试的,是谷歌(Google)和卡耐基梅隆大学联合提出的XLNet模型[2]。在XLNet中,作者提出将GPT的自回归训练方式扩展到理解型任务中,以避免BERT中掩码掩盖的词之间独立、引入下游的微调(fine-tuning)中并不会出现的[MASK]作为掩码等“训练-测试”不一致的问题,即为排列(permutation)语言模型。排列语言模型通过对一个序列中的单词进行顺序重排后,再使用GPT方式的自回归模型进行预测,实现了在自回归模型中感知双向信息,从而兼具了BERT和GPT两者的优点。XLNet作为第一个比较成功地打通GPT和BERT模型的工作,在一系列自然语言理解任务上全面超越了BERT。

紧接着,一系列试图统一序列建模任务的预训练模型纷至沓来,比如BART、UniLM、T5等。然而,仍然没有出现一个模型能在同等(或略大的)参数规模下,在所有NLU、NLG和Seq2Seq(序列到序列)等自然语言任务中击败全部专门模型。

最近,清华、智源悟道预训练团队发布了GLM[3](General Language Model,通用语言模型),成为第一个在NLU、NLG、Seq2Seq、不定长填空等任务中全部登顶的语言模型。GLM的核心思路与P-tuning一致,即我们可以将所有的自然语言任务都化归为统一的生成任务进行解决。

如图2所示,在传统的BERT/GPT模型中,一个无法解决的问题是如何进行不定长填空。GPT只能在序列的末尾进行填空,而BERT在填空时必须给出填空长度(通过[MASK]的数量给出)。为了解决这一问题,研究者们首先转向Seq2Seq模型,如T5和BART。然而,Seq2Seq模型天生存在参数冗余,且与人类的语言认知习惯不符,在自然语言理解任务上的表现也通常不佳。

为了应对这一挑战,GLM开创性地引入了自编码上下文+自回归不定长填空的融合模式,即对于提供的上下文,我们采用双向语言模型进行建模;而对于不定长填空,我们采用自回归的方式。为了避免位置编码(Positional Encoding)泄漏填空的长度信息,研究者们又设计了二维位置编码,为填空内的标识符单独使用一套编码,从而成功地解决了这个问题。GLM在一系列自然语言理解、无条件生成、摘要生成与不定长填空任务中都取得了与单任务模型相比的最佳结果,成为首个实现该目标的通用语言模型。

认知网络框架

总结人工智能近70年的历史,认知科学的进展总在其关键的发展阶段起着引领性的作用。深度学习的基础架构——神经网络,便是基于认知科学对人类大脑的分析而建模成的数学模型。经过近十年的发展,基于深度神经网络的感知智能逐渐陷入平台期,如何从认知科学中进一步汲取灵感与思想,成为当前深度学习取得突破的必要条件。在实现认知智能的道路上,近期许多研究者已经做出了极具影响力的先锋性工作。

例如,清华大学知识工程实验室围绕着认知科学中核心的工作记忆理论做出了一系列突破。工作记忆理论认为,人类的认知分为系统一和系统二:系统一进行感知和直觉式的推理,而系统二进行认知和理性式的推理。鉴于此,在2019年,研究者提出了CogQA——认知图谱问答[4]。认知图谱问答提出一种新颖的迭代框架(见图3):算法使用两个系统来维护一张认知图谱,系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统二利用图神经网络在认知图谱上进行推理计算。

人类认知的系统一是“无知觉的”,CogQA中的系统一也是流行的预训练语言模型BERT。首先,系统一的输入分为三部分:问题本身、从前面段落中找到的“线索”、关于某个实体的维基百科文档;其目标是抽取文档中的“下一跳实体名称”和“答案候选”。这些抽取的到的实体和答案候选将作为节点添加到认知图谱中,并会被系统一计算出语义向量,在系统二中用作关系推理的初始值。

系统二在系统一构建的认知图谱上进行推理计算,文中使用图神经网络(GNN)实现的隐式推理计算——每一步迭代,前续节点将变换过的信息传递给下一跳节点,并更新目前的隐表示。最终所有的“答案候选”点的隐表示将通过一个带有softmax函数的全连接网络来判断哪个是最终答案。基于这套认知框架,CogQA在认知多跳问答数据集HotpotQA上连续占据榜首长达三个月。

在工作记忆理论中,还有一个重要的组成成分——中央处理机制。“工作记忆的核心是一个中央处理机制,它协调多种来源的信息”,并且“它发挥一个有限容量的注意力系统的作用,这个系统能选择和操作控制过程和策略”,这是工作记忆的提出者巴德利(Baddeley)在他1992年发表在《科学》(Science)上的论断[5]。受此启发,在CogQA的接触上,清华知识工程实验室的研究者们进一步提出CogLTX[6],并用同样的方法来处理长文本。如果将BERT的512个输入字符限制比作人的工作记忆,那么既然人思考问题时能够找到关键的少量信息并在工作记忆中推理出结果,BERT的512个输入字符限制也应该远远足够;关键在于,对特定的问题而言我们需要关键的信息。

CogLTX遵循一种特别简单直观的范式,即“抽取关键的句子→通过BERT得到答案” 这样的两步流程。常见的几种任务都可以用这种范式来解决。比如图4列举了语段抽取、序列级别任务、字词级别任务的处理方法。在这里,我们将完成任务要训练的BERT称为推理机(reasoner),解决问题的关键语段记为z,CogLTX通过一个被称为“MemRecall”的过程,如同人类调度工作记忆一样的方式来抽取关键的语段z。

对于关键信息的认识本身也是智能的重要部分,这并非易事。最直观的想法是通过信息检索的办法(例如BM25)来抽取关键句,但因为下游任务具有不确定性,无法建模成信息检索的形式;另外,直接检索的方式也过于粗糙,同时无法处理多跳推理的信息。相较之下,人在工作记忆中的思考是一个时序的过程,会不断忘记被错误检索的信息而将空间留给新信息。因此,我们模仿这样的过程设计了MemRecall,其核心是一个对每个字词进行相关度打分的评分机(judge)模型,也用BERT实现。MemRecall的过程如图4所示。

我们首先将长文本切块,用现有的关键信息去连接每一块,通过评分机获取块平均相似度得分,其中最高分的块被放入“工作记忆”——但是这是暂时的,正如人脑的工作记忆一样,我们如果只对重要的信息进行重演,其他信息就会很快忘掉——在MemRecall中我们将这些最高分的块一起通过评分机,使信息充分交换后再进行评分,并且“忘掉”那些得分不高的块。新的关键信息将用来重复这一过程,完成多步推理。

研究者们在NewsQA、HotpotQA问答数据集,20NewsGroup文本分类和Alibaba淘外文本多标签分类等几个任务上试验了CogLTX,结果均超过或类似于目前最好的模型效果。这充分地说明,对于BERT处理长文本时遇到的困境,如果能从人类处理信息的方式得到启发,另辟蹊径从下游任务微调的流程上考虑,我们能更直接地解决这个问题。

神经-符号结合模型

认知模型既包括模拟人脑神经元工作的亚符号模型,也包括着眼于抽象心智能力的符号模型。而符号模型正是由计算机科学中的知识推理系统演化而来的。在面向认知的预训练框架中,如何将知识这种符号信息与神经网络结合是一个重要的研究课题,也就是所谓的神经-符号结合模型

ERNIE

预训练语言模型是典型的数据驱动模型,通过在大规模数据上进行学习,该类模型在许多自然语言处理任务上取得了十分优秀的成绩。数据、算法、算力、知识是组成人工智能的四大基础,现有的数据驱动模型在未来的发展当中需要将知识考虑进来,使数据驱动和知识驱动结合起来,做到更有深度的语义理解与推理。近期已有学者针对此问题开展探索与研究,并取得初步成果。

例如,清华大学自然语言处理与社会人文计算实验室在该方向上已作出一系列具有影响力工作。针对预训练语言模型对低频实体建模能力不佳的问题,有研究者提出了使用信息实体增强的语言表示模型(Enhanced Language Representation with Informative Entities,ERNIE),通过引入外部的知识信息(知识图谱(Knowledge Graph,KG))来改善预训练模型[7]

如图5所示,“鲍勃·迪伦写了《在风中飘》,并写了《摇滚记》”,在这一句话里有两个“写”的描述,但从字面上来看无法了解到“写”的真正意思。在得知“在风中飘”是指一首歌,“摇滚记”是指一本书之后,人们才能知道第一个“写”的意思是写歌,第二个“写”的意思是写书。理解两个“写”的意思可以帮助模型进行关系分类和实体分类:对于关系分类来说,在第一句中人们可以得出“鲍勃·迪伦”和“在风中飘”的关系是作曲者,在第二句中人们可以得出“鲍勃·迪伦”和“摇滚记”的关系是作者;对于实体分类来说,人们可以得出第一句中 “鲍勃·迪伦”是一名作曲家,在第二句中“鲍勃·迪伦”是一名作家。由上述例子可以得出外部知识确实能有效地帮助模型对句子的建模,其具体的优势如下:首先,在文本中存在着一些低资源的实体,利用外部的知识图谱可以准确地将其识别;其次,知识图谱可以帮助引入句子相关的额外事实,帮助原文本的理解。

为了抽取和编码知识信息,ERNIE首先在给定的文本中识别出命名实体的对应词汇,然后将这些出现的实体词汇与知识图谱中的实体构建对应关系。考虑到模型不方便直接使用图结构的知识图谱信息,ERNIE选用了知识表示的算法(如TransE)对知识图谱编码,获得实体的表示和关系的表示,然后将实体的表示作为ERNIE的输入。在这里,假设实体的表示携带了知识图谱中相关的事实信息,可以有效增强模型的语言建模能力。通过构建文本和知识图谱之间的对齐关系,ERNIE将知识信息整合入预训练语言模型的语义模型当中。

与BERT类似,ERNIE采用了遮蔽语言模型(Masked Language Model),将下句预测任务作为ERNIE的预训练任务。除此之外,为了能够更好地融合文本特征和知识特征,我们设计了一个新的预训练任务——降噪实体自编码机。实体自编码机首先输入实体的序列,在输出的时候使用词的向量将输入的实体序列还原出来,在自编码机的训练过程中将实体的信息融合到词的向量当中。除此之外,考虑到下游的实体链接结果来自其他模型,可能会存在一些错误,ERNIE在输入的实体序列中随机加入了一些噪声,目的是增强自编码机的鲁棒性。与仅利用上下文来预测单词的现有预训练语言表示模型不同,ERNIE需要融合上下文的信息以及相关的事实信息,以获得一个融合知识的语言表示模型。

KEPLER

从文本中识别出相关实体需要额外的开销,并且存在一定的噪声。研究者们设想如果模型能够同时对文本进行语言模型训练并对符号化知识图谱进行学习,便可以有效学习文本中可能出现的相关图谱知识,因此提出了知识嵌入(Knowledge Embedding,KE)的统一模型和预训练的语言表示(KEPLER)[8],它不仅可以将事实知识更好地整合到预训练语言模型中,而且还可以通过丰富的知识有效地学习KE文字信息。与现有方法相比, 作为预训练语言模型,KEPLER具有以下优势:(1)能有效地将事实知识整合到预训练语言模型中;(2)从遮蔽语言模型学习中具备强大的语言理解能力;(3)加入KE的学习目标,增强了KEPLER从文本中获取知识的能力。作为KE模型,KEPLER的优势在于:(1)可以更好地利用来自实体描述的丰富信息;(2)可以对未见过的实体产生表示。

KEPLER是一个联合知识嵌入和文本预训练的模型,它将将事实知识和语言理解结合到一个模型中,使用遮蔽语言模型和图谱表示模型两个训练目标进行联合训练,其模型结构如图6所示。

KEPLER主要针对如何使用预训练模型进行知识表示学习进行了适配。它将实体描述输入文本编码器,得到对应实体的表示向量,再根据知识图谱中的实体三元组(头实体,关系,尾实体),使用文本实体表示和对应的关系表示向量,计算知识嵌入的训练目标函数。如何进一步构建文本和图谱的联系,推动知识在认知计算中的发展仍是一个重要的研究方向[9]

CorefBERT

人类总结的抽象知识也可以用于指导模型的预训练。语言学家认为指代消解是长文本处理的重要问题,然而现有的模型没有显式地考虑指代信息,使得它们在一些指代相关的任务中表现不佳。为此,有研究者提出CorefBERT[10],在预训练阶段引入指代消解知识的学习。在自然语言文本中,存在许多由实体重复出现而产生的指代。研究者认为一个实体在一段文本第二次出现时,大概率地与它第一次出现时指代的是同一个事物。基于这个远程监督的假设,研究者进而提出了提及指代预测任务(Mention Reference Prediction,MRP),遮盖重复出现名词的其中一个出现位置,并通过基于拷贝机制的损失函数显式地建立它与其他出现位置的指代联系。使用一个基于拷贝机制的损失函数建立其词与上下文之间的联系,更容易对指代关系进行建模。此外,与遮盖语言建模任务相比,提及指代预测训练任务更鼓励模型建立长距离的指代联系,使模型更好地理解全文。

可持续学习与演化

传统的知识多表现为结构化的信息,例如知识图谱中的三元组表示的是实体与实体之间的关系信息。因此,这些传统的知识是易被人们理解和学习的,并且能被使用于很多专家系统中以提高其完成任务的能力。近些年来,随着深度学习(Deep Learning,DL)时代的到来,人工智能领域取得了长足的发展和进步,利用深度神经网络模型从数据中自动学习完成任务成为一种新的范式。如果把人工智能领域中的知识看作完成任务所需要的信息,那么一个神经网络模型通过学习从而完成某个任务的过程就是从数据中学习知识的过程。不同于传统的知识,这种存储在神经网络模型中的知识是连续的,它由模型的参数及其架构决定,一般难以被人理解。鉴于此,我们把这种从数据中学习获取,存储于神经网络模型中的知识称为连续型知识

连续型知识的存储和管理

知识的产生无时无刻都在发生,随着信息化的蓬勃发展,如何存储和管理知识变得至关重要。在计算机领域,一种最典型的知识存储和管理技术手段称为知识库(Knowledge Base,KB),它是一种用于存储和管理知识的特殊数据库。传统的知识库(如DBpedia、WordNet和HowNet等)都依赖人工标注以形成高质量的结构化信息库。这类知识库的优点是人类可理解且质量高,但同时存在着规模受限、构建代价高等缺点。近年来,随着预训练模型(如GPT和BERT)的兴起,越来越多的研究者开始探究预训练模型从数据中学习到了什么知识,以及它们能在下游任务上表现好的原因。如果我们把神经网络模型存储的语言理解能力看成一种连续型知识库,那么对于多种多样的模型,如何存储和管理这一类连续型知识成为一个新的问题和挑战。

对于连续型知识的存储与管理方法,大致可以分为三个类别。第一类是使用超大规模的数据和模型训练出一个具有超强能力的预训练模型,这种方法的目标是用一个模型学习所有的知识,这样只要存储一个模型就相当于存储了所有的连续型知识,这种方法的优点是简单有效,缺点是对计算资源和存储资源的要求非常高,例如GPT-3模型使用了约1750亿参数。第二类方法是借助混合专家(Mixture of Experts,MoE)将多个模型合并为一个大模型,对不同的任务或输入选择不同的子模型进行处理。这种方法的优点是,对新增的模型可以很方便地将其融入现有的系统中;缺点是随着模型数量的增加,对存储的要求会非常高。最近由谷歌大脑团队提出的Switch Transformers模型就是该方法的一个代表。前两类方法都是通过存储模型从而达到存储和管理连续型知识的目的,第三类方法则是需要建立一个通用的连续型知识库(Universal Continuous Knowledge Base,UCKB),然后将连续型知识从模型中导入到该知识库中。清华大学首次提出了通用连续型知识库的概念并做了一些初步的探索工作[11]。为了适配多种模型,该方法需要为不同的模型设计不同的接口来实现知识的导入与导出。这种将知识从模型中分离出来进行存储和管理的方法可以借助知识蒸馏(Knowledge Distillation,KD)完成知识的转移。这类方法的优点在于其克服了直接存储模型带来的冗余性,将多种模型的功能存储到了一个通用的知识库中;但同时也增加了存储架构设计和接口设计的难度,如何管理不同模型的知识之间的融合与区分也是一个非常重要且棘手的问题。

与此同时,预训练语言模型利用大规模文本数据进行无监督学习,在若干下游任务上均取得了突破性的效果。当前的预训练模型使用给定的数据集,在预设的下游任务和确定的测试数据上进行评估。然而,我们所处的世界在不断发展和变化。一方面,未标注的语料每时每刻都在产生,如CommonCrawl语料库从互联网上爬取原始语料,每年的数据增量以TB量级计;另一方面,有研究指出,随着时间的推移,旧数据上训练得到的模型在越新的测试数据上表现越差。此外,在实际的产品环境中,机器学习模型往往每隔很短的时间就需要更新迭代并重新部署。因此,在流式数据和动态评估的环境下对模型进行持续学习已经成为新的挑战。

持续学习

持续学习(continual learning)是机器学习领域的重要问题,关注单一模型在持续而来的任务上的顺序表现。持续学习中常出现的问题是灾难性遗忘(catastrophic forgetting):当前任务的训练结束后,模型在之前任务上的性能显著变差。成功的持续学习不应出现灾难性遗忘。相反地,在学习的过程中,模型应该具有知识迁移的能力:任务间的相关性使得模型在学习完相似的任务时,各自的性能相较模型学习单任务时都有所提升。具体地,一个持续学习模型应具有向前迁移(forward transfer)或向后迁移(backward transfer)的能力,分别代表后面任务的学习对前面任务具有正向作用,或前面任务的学习对后面任务具有正向作用。这一知识迁移的特性也存在于多任务学习中。事实上,多任务学习因其不会出现灾难性遗忘的问题,往往作为持续学习的性能上界来衡量持续学习是否成功。

持续学习按方法大致分为三类。基于正则项的方法通过在损失函数中添加正则项,约束模型在切换任务前后,重要的参数尽量不发生较大改变,而允许较为灵活的参数部分发生变化。基于记忆的模型在持续学习过程中不断记录当前任务的训练样本,并在完成学习之后的任务时进行样本回放来避免灾难性遗忘;另一种模型采取生成式记忆(generative replay)的策略,不直接存储样本,而是训练一个可以生成之前任务的训练样本的网络来进行样本回放。模块化网络将不同任务对应的网络参数进行分离,为每个任务设置其专属的数据流通路。在自然语言处理领域中,已经有一些初步的持续学习探索,包括语言模型、关系抽取、对话生成等。但整体来看,持续学习在自然语言处理乃至整个机器学习领域仍具有较大的发展空间,值得更多的探索。

结语

本文结合笔者在该领域的初步探索,探讨了目前预训练模型在认知计算与可持续学习方面的研究现状和未来展望。希望本文能对预训练模型的未来研究有所助益。

参考文献:

[1] Liu X, Zheng Y, Du Z, et al. GPT Understands, Too. [OL].(2021-03-18). https://arxiv.org/abs/2103.10385v1.

[2] Yang Z, Dai Z, Yang Y, et al. XLNet: Generalized Autoregressive Pretraining for Language Understanding[C]// Advances in Neural Information Processing Systems 32 (NeurIPS 2019).

[3] Du Z, Qian Y, Liu X, et al. All NLP Tasks Are Generation Tasks: A General Pretraining Framework[OL](2021-03-18). https://arxiv.org/pdf/2103.10360v1.pdf.

[4] Ding M, Zhou C, Chen Q, et al. Cognitive Graph for Multi-Hop Reading Comprehension at Scale[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019). 2019: 2694–2703.

[5] Baddeley A. Working memory[J]. Science, 1992,255(5044): 556-559.

[6] Ding M, Zhou C, Yang H, et al. CogLTX: Applying BERT to Long Texts[C]// Advances in Neural Information Processing Systems 33 (NeurIPS 2020).

[7] Zhang Z, Han X, Liu Z, et al. ERNIE: Enhanced Language Representation with Informative Entities[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019). 2019:1441–1451.

[8] Wang X, Gao T, Zhu Z, et al. KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation[J].Transactions of the ACL.

[9] Su Y, Han X, Zhang Z, et al. CokeBERT: Contextual Knowledge Selection and Embedding towards Enhanced Pre-Trained Language Models[OL].(2020-12-05). https://arxiv.org/abs/2009.13964v4.

[10] Ye D, Lin Y, Du J, et al. Coreferential Reasoning Learning for Language Representation [C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing(EMNLP 2020). ACL, 2020: 7170–7186.

[11] Chen G, Sun M, Liu Y. Towards a Universal Continuous Knowledge Base[OL].(2020-12-25). https://arxiv.org/abs/2012.13568v1.

特别声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任

作者简介:

唐杰

CCF杰出会员,CCF学术工委主任,CCCF前编委。清华大学计算机系教授。主要研究方向为人工智能、知识图谱、数据挖掘、社交网络和机器学习。

jietang@mail.tsinghua.edu.cn

刘洋

CCF专业会员。清华大学计算机系长聘教授,清华大学智能产业研究院副院长。主要研究方向为自然语言处理和机器翻译。liuyang2011@tsinghua.edu.cn

刘知远

CCF高级会员、CCCF前编委。清华大学计算机系副教授。主要研究方向为自然语言处理、知识图谱和社会计算。

liuzy@tsinghua.edu.cn

刘潇

清华大学计算机系硕士研究生。主要研究方向为机器学习、知识图谱和数据挖掘。liuxiao17@mails.tsinghua.edu.cn

张正彦

清华大学计算机系博士研究生。主要研究方向为自然语言处理、预训练语言模型。zy-z19@mails.tsinghua.edu.cn

CCF推荐

【精品文章】

认知图谱——人工智能的下一个瑰宝

【2004新澳门天天开好彩大全】【管家婆期期四肖四码中特管家】
【2024年新澳门天天开彩免费资料】【管家婆一马一肖】
【2024年正版免费天天开彩】【新澳门最怏直播】
【2024新澳今晚资料】【2O24年澳门正版免费大全】
【2024年新澳门天天彩开彩结果】【2024澳门天天六开彩免费图】
【2024新澳正版免费资料大全】【澳门现场直播结果+记录2019】【2024新澳门天天六开好彩大全】
上一条新闻下一条新闻

推荐文章

发表评论

迈克尔·贝里曼

7秒前:在自然语言处理领域中,已经有一些初步的持续学习探索,包括语言模型、关系抽取、对话生成等。

IP:91.20.2.*

米凯尔·珊农·詹金斯

1秒前:edu.

IP:59.87.6.*

瓦蕾莎·马兰洛

2秒前:这一知识迁移的特性也存在于多任务学习中。

IP:34.48.4.*

Ga-hyeon

5秒前:研究者们设想如果模型能够同时对文本进行语言模型训练并对符号化知识图谱进行学习,便可以有效学习文本中可能出现的相关图谱知识,因此提出了知识嵌入(Knowledge Embedding,KE)的统一模型和预训练的语言表示(KEPLER)[8],它不仅可以将事实知识更好地整合到预训练语言模型中,而且还可以通过丰富的知识有效地学习KE文字信息。

IP:80.21.3.*

微信公众号APP介绍

APP图标

APP名:微信公众号

版本:V1.17.468等级:8星

更新时间:2024-10-18 13:13文件格式:apk应用分类:ios-Android

APK大小:86.82MB60%好评

微信公众号这是一个功能强大的微信公众号APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:数据、算法、算力、知识是组成人工智能的四大基础,现有的数据驱动模型在未来的发展当中需要将知识考虑进来,使数据驱动和知识驱动结合起来,做到更有深度的语义理解与推理。

版本V8.32.522APP介绍

APP图标

APP名:微信公众号

版本:V9.77.984等级:4星

更新时间:2024-10-18 15:16文件格式:apk应用分类:ios-Android

APK大小:75.44MB47%好评

无论是微信公众号快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

版本V5.99.301APP介绍

APP图标

APP名:微信公众号

版本:V7.29.137等级:4星

更新时间:2024-10-18 21:14文件格式:apk应用分类:ios-Android

APK大小:87.93MB32%好评

微信公众号应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

版本V1.80.564APP介绍

APP图标

APP名:微信公众号

版本:V5.96.353等级:4星

更新时间:2024-10-18 23:24文件格式:apk应用分类:ios-Android

APK大小:16.59MB91%好评

微信公众号这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

版本V4.81.818APP介绍

APP图标

APP名:微信公众号

版本:V6.37.173等级:3星

更新时间:2024-10-18 15:24文件格式:apk应用分类:ios-Android

APK大小:22.87MB14%好评

这是一款功能强大的微信公众号应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:为了应对这一挑战,GLM开创性地引入了自编码上下文+自回归不定长填空的融合模式,即对于提供的上下文,我们采用双向语言模型进行建模;而对于不定长填空,我们采用自回归的方式。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

版本V3.17.507APP介绍

APP图标

APP名:微信公众号

版本:V5.98.795等级:7星

更新时间:2024-10-18 18:19文件格式:apk应用分类:ios-Android

APK大小:88.51MB68%好评

这是一款功能强大的微信公众号应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:清华大学首次提出了通用连续型知识库的概念并做了一些初步的探索工作[11]。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

版本V2.77.882APP介绍

APP图标

APP名:微信公众号

版本:V2.14.982等级:9星

更新时间:2024-10-18 21:21文件格式:apk应用分类:ios-Android

APK大小:51.83MB39%好评

这是一款功能强大的微信公众号应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:持续学习中常出现的问题是灾难性遗忘(catastrophic forgetting):当前任务的训练结束后,模型在之前任务上的性能显著变差。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

版本V6.89.516APP介绍

APP图标

APP名:微信公众号

版本:V5.85.149等级:1星

更新时间:2024-10-18 13:18文件格式:apk应用分类:ios-Android

APK大小:83.49MB68%好评

今天的最新动态包括:“工作记忆的核心是一个中央处理机制,它协调多种来源的信息”,并且“它发挥一个有限容量的注意力系统的作用,这个系统能选择和操作控制过程和策略”,这是工作记忆的提出者巴德利(Baddeley)在他1992年发表在《科学》(Science)上的论断[5]。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

版本V6.86.408APP介绍

APP图标

APP名:微信公众号

版本:V4.10.124等级:9星

更新时间:2024-10-18 18:16文件格式:apk应用分类:ios-Android

APK大小:57.47MB36%好评

这是一款功能强大的微信公众号应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:认知计算的发展主要着眼于统一序列建模、认知网络框架以及神经-符号结合模型。。

版本V4.52.205APP介绍

APP图标

APP名:微信公众号

版本:V8.83.536等级:2星

更新时间:2024-10-18 13:23文件格式:apk应用分类:ios-Android

APK大小:74.14MB35%好评

这款功能强大的微信公众号应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

版本V6.39.776APP介绍

APP图标

APP名:微信公众号

版本:V8.50.896等级:8星

更新时间:2024-10-18 24:18文件格式:apk应用分类:ios-Android

APK大小:64.42MB87%好评

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

版本V7.47.759APP介绍

APP图标

APP名:微信公众号

版本:V8.51.981等级:3星

更新时间:2024-10-18 16:15文件格式:apk应用分类:ios-Android

APK大小:45.31MB45%好评

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。