ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2022
1

按主题分类

自然语言理解与机器翻译
1

按作者

刘群
1

按机构

华为公司
1

当前资源共 1条

隐藏摘要

点击量

时间

下载量

您选择的条件: 华为公司

1. ChinaXiv:202205.00015
下载全文

神经自然语言处理方法中的子词切分(Subword Tokenization)方法综述

分类：计算机科学 >> 自然语言理解与机器翻译提交时间： 2022-05-04

刘群

摘要：本文对基于神经网络的自然语言处理方法中的子词切分（Subword Tokenization）方法进行了综述。本文首先解释了基于神经网络的自然语言处理方法中面临的由于封闭词表（Closed Vocabulary）所导致的集外词（Out-of-Vocabulary，简称OOV）问题，并介绍了解决这一方法常见的Byte-Pair Encoding（简称BPE）、WordPiece和Unigram三种方法。子词切分之前通常需要做词语切分，而词语切分是跟具体语言高度相关的。SentencePiece提供了一种与语言无关的子词切分方法，可以在输入的句子上直接做子词切分，无需先做词语切分。子词切分有时会存在一些切分不合理和子词表示学习不够充分的问题，本文随后介绍了解决这一问题的子词正则化技术和BPE-Dropout技术。基于字符的子词切分在面对多语言（特别是中日韩等语言）的大字符集时依然存在OOV问题，本文将介绍解决这一问题的一种有效手段：基于UTF-8字节的BPE技术（Byte Level BPE，简称BBPE），及其衍生的基于BBPE的SentencePiece方案。最后本文介绍了ACL2021最佳论文所提出的一种通用的词表最优化技术VOLT。

同行评议状态:待评议

点击量 4556 下载量 617 评论

神经自然语言处理方法中的子词切分(Subword Tokenization)方法综述