不拆分单词也可以做NLP,哈工大最新模型在多项任务中打败BERT,还能直

2022-03-06 15:38:26 来源: IT之家 阅读量:15415   

众所周知,BERT 在预训练时会对某些单词进行拆分比如把loved,loving和loves拆分成lov,ed,ing和es

不拆分单词也可以做NLP,哈工大最新模型在多项任务中打败BERT,还能直

目的是缩减词表,加快训练速度,但这样一来,在某些时候反而会阻碍模型的理解能力比如把lossless分成loss和less的时候

现在,来自哈工大和腾讯 AI Lab 的研究人员,尝试利用不做单词拆分的词汇表开发了一个 BERT 风格的预训练模型 ——WordBERT结果,这个 WordBERT 在完形填空测试和机器阅读理解方面的成绩相比 BERT 有了很大提高

在其他 NLP 任务,比如词性标注 ,组块分析 和命名实体识别 中,WordBERT 的表现也都优于 BERT由于不用分词,这个 WordBERT 还可以直接进行中文训练更值得一提的是,它在性能提升的同时,推理速度并没有变慢

可谓一举多得。

NO WordPieces

与 BERT 类似,WordBERT 包含两个组件:词向量和 Transformer 层和以前的模型一样,WordBERT 采用多层双向 Transformer 来学习语境表示

word embedding 则是用来获得单词向量表示的参数矩阵,与把单词分成 WordPiece 的 BERT 相比,WordBERT 的词汇由完整的单词组成他们用自然语言处理软件包 Spacy 处理数据,生成了两个词汇表,一个规模为 500K,一个为 1M词汇表中还被单独添加了 5 个特殊单词:,, , 和

通过不同的词汇表规模,初始化配置和不同语言,最后研究人员一共训练出四个版本的 WordBERT:WordBERT—500K,WordBERT—1M,WordBERT—Glove 和 WordBERT—ZH。

它们的配置如上,嵌入参数都是随机初始化的,嵌入维数和基准 BERT 保持一致其中 WordBERT—Glove 用的词汇表是现成的 Glove vocabulary,里面包含约 190 万个未编码的单词,该模型由相应的单词向量在 WordBERT 之上初始化而来WordBERT—ZH 则是用中文词汇训练出来的 WordBERT,它也保持了 768 的词嵌入维数

性能与速度兼具

在测试环节中,完形填空的测试数据集来自 CLOTH,它由中学教师设计,通常用来对中国初高中学生进行入学考试其中既有只需在当前句子中进行推理的简单题,也有需要在全文范围内进行推理的难题

M 代表初中,H 代表高中

WordBERT—1M 获得了最佳成绩,并接近人类水平它在高中题比 BERT 高了 3.18 分,初中题高了 2.59 分,这说明 WordBERT 在复杂任务中具有更高的理解和推理能力

相比来看,它在 NER 任务上的优势更明显一些。。

研究人员推测,这可能是 WordBERT 在学习低频词的表征方面有优势,因为命名实体往往就是一些不常见的稀有词对于中文版WordBERT—ZH,研究人员在 CLUE benchmark 上的各种任务中测试其性能除了 BERT,对比模型还包括 WoBERT 和 MarkBERT,这也是两个基于 BERT 预训练的中文模型

结果,WordBERT—ZH 在四项任务中都打败了所有其他对比模型,在全部五项任务上的表现都优于基线 BERT,并在 TNEWS,OCNLI和 CSL任务上取得了 3 分以上的差距这说明,基于词的模型对中文也是非常有效的

最后,实验还发现:性能不差的 WordBERT,在不同任务上的推理速度也并未落于下风。标准BERT模型参数规模只有4亿,而此次4810亿的巨型BERT是有史以来最大的一个版本。

一作为哈工大计算机专业在读博士生冯掌印,研究方向为 NLP,文本生成。

他曾在微软亚研院自然语言计算组,哈工大和科大讯飞联合实验室实习,在 NLP 领域的顶会 ENNLP 发表过一篇一作论文。

论文地址:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精选 导读

大摩:苹果产量或超预期增长,预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出,苹果本季度iPhone产量可能超预期增长,因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间: 2021-12-23 17:04
行情   2021-12-23

中金:维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称,维持石四药集团“跑赢行业”评级,保持2021/22年归母净利润预测7.9/11.64亿元不变,目标价5.8港元。报告中称...

发布时间: 2021-12-23 17:03
行情   2021-12-23

实探中装建设元宇宙合作方鸿蒙时代:与华为无关已搬离注册地

12月22日,深交所对中装建设发布关注函,要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间: 2021-12-23 17:02
行情   2021-12-23

“疫”线女将:眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间: 2021-12-23 16:48
要闻   2021-12-23

联通网络智能运维产品研发招标:华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果,华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式,从故障感知到信...

发布时间: 2021-12-23 16:35
酷玩   2021-12-23

热点 推荐

小米12Pro自研智能动态刷新率演示视频公布:支持新技能“滑动变速”,更

今日上午,小米手机官方表示,小米自研智能动态刷新率,是第二代低功耗2K屏幕的创新体验,第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间: 2021-12-23 16:31
酷玩   2021-12-23

增速惊人!鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上,华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间: 2021-12-23 16:26
酷玩   2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑,婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求,他趣用户从线上延伸到线下,通过组织...

发布时间: 2021-12-23 14:59
机器人   2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日,2022中国信通院ICT+深度观察报告会隆重举办,京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间: 2021-12-23 14:56
机器人   2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140:新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验,并新增了桌面图标放大功能。更新包2修复...

发布时间: 2021-12-23 14:41
机器人   2021-12-23
bd9