• 神经自然语言处理方法中的子词切分(Subword Tokenization)方法综述

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2022-05-04

    摘要: 本文对基于神经网络的自然语言处理方法中的子词切分(Subword Tokenization)方法进行了综述。本文首先解释了基于神经网络的自然语言处理方法中面临的由于封闭词表(Closed Vocabulary)所导致的集外词(Out-of-Vocabulary,简称OOV)问题,并介绍了解决这一方法常见的Byte-Pair Encoding(简称BPE)、WordPiece和Unigram三种方法。子词切分之前通常需要做词语切分,而词语切分是跟具体语言高度相关的。SentencePiece提供了一种与语言无关的子词切分方法,可以在输入的句子上直接做子词切分,无需先做词语切分。子词切分有时会存在一些切分不合理和子词表示学习不够充分的问题,本文随后介绍了解决这一问题的子词正则化技术和BPE-Dropout技术。基于字符的子词切分在面对多语言(特别是中日韩等语言)的大字符集时依然存在OOV问题,本文将介绍解决这一问题的一种有效手段:基于UTF-8字节的BPE技术(Byte Level BPE,简称BBPE),及其衍生的基于BBPE的SentencePiece方案。最后本文介绍了ACL2021最佳论文所提出的一种通用的词表最优化技术VOLT。

  • 面向数据流的多任务多核在线学习算法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》

    摘要: 多任务多核学习已逐渐成为在线学习算法研究的热点。对于数据流的处理,现有的在线学习算法在准确性上有一定的欠缺,因此提出一种新的多任务多核在线学习模型用于提高数据流预测的准确性。在保持多任务多核学习的基础上,将其扩展到在线学习中,从而得到一个新的在线学习算法;同时为输入数据保持一定大小的数据窗口,用较小空间换取数据的完整性。实验部分对核函数的选取以及训练样本集的大小进行了较为详细的分析,通过对UCI数据和实际的机场客流量数据进行分析,很好地保障了流数据处理的准确性及实时性,有一定的实际应用价值。

  • 有向动态网络中基于模体演化的链路预测方法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》

    摘要: 以往传统的链路预测方法大多数针对无向网络,而实际上大多数社交网络是有向的,并且没有考虑网络中同一节点对之间的重复边以及微观演化信息,因此不能较好地解决有向动态网络中的链路预测问题。针对有向网络,将节点对之间的重复边信息转换为该节点对之间连边的权值;接着采用了基于三元组模体的演化模型,对滑动窗口中相邻时间片的模体转换概率进行统计后,采用指数加权滑动平均法对其进行时序分析得到不同模体转换概率的预测矩阵,进而使用该矩阵对网络中的链边进行预测。这不仅充分利用了网络微观演化信息,而且解决了动态网络中重复边的问题。最后对实验结果进行分析发现,在高全局聚类系数高平均度的网络中AUC相比Triad Transition Matrix方法提高了近0.01,而相比Common Neighbor方法提高更多。因此,所提方法能够较好地应用网络微观演化信息进行链路预测。

  • 中科院计算所的少数民族语言机器翻译研究进展

    分类: 计算机科学 >> 自然语言理解与机器翻译 分类: 计算机科学 >> 计算机应用技术 提交时间: 2017-03-09

    摘要: 本文分析了少数民族语言机器翻译研究的背景、研究现状和发展动态,介绍了中科院计算所在少数民族语言处理和机器翻译方面的研究进展,包括维吾尔语、蒙古语、藏语的语言处理基础技术,形态丰富语言的分析和翻译建模,资源缺乏语言的知识获取和翻译技术,以及组织全国机器翻译研讨会少数民族语言机器翻译评测的情况等。

  • 面向形态丰富语言的翻译规则选择方法

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2017-03-10

    摘要: 目前的机器翻译模型都是针对形态变化简单的语言(如英语)设计的,不太适合于形态丰富语言(如维吾尔语)。在本文中,我们通过区别对待形态丰富语言中的词干与词缀,提出了一种新型的面向形态丰富语言的翻译规则选择方法。我们用词干作为基本翻译单元以缓解数据稀疏问题,此外,每条词干粒度的翻译规则上还附着一个词缀分布。在翻译时,通过计算待翻译片段的词缀分布与翻译规则词缀分布的相似度,来选择更合适的翻译规则。从三种形态丰富语言(维吾尔语、哈萨克语、柯尔克孜语)到汉语的翻译实验表明,该方法显著改善了翻译质量。

  • 氮、磷、钾肥对绣球‘花手鞠’容器苗生长及养分状况的影响

    分类: 生物学 >> 植物学 >> 应用植物学 提交时间: 2021-11-04 合作期刊: 《广西植物》

    摘要: 为指导绣球容器苗的合理施肥,该研究以两年生盆栽绣球‘花手鞠’(Hydrangea macrophylla ‘Hanatemari’)为材料,利用“3414”平衡施肥设计,研究了氮(N)、磷(P)、钾(K)三种肥料的四个水平(N、K2O:0、4、8、12 g·plant-1;P2O5:0、1.5、3、4.5 g·plant-1)对‘花手鞠’生长及植物养分状况的影响,并利用临界浓度法确定适宜的施肥量,为绣球容器苗的科学施肥提供依据。结果表明:(1)在N肥处理中‘花手鞠’苗高、蓬径、植物生长指数(PGI)、地上部分及全株生物量均随施肥量升高呈上升趋势,当施肥量超过“2”水平时这些指标变化不再显著,或略有下降。(2)低水平P肥(P1)和低水平K肥(K1)有利于􀀁‘花手鞠’生物量的积累。(3)绣球叶片和茎中的养分含量均随N、P、K施肥量的增加而升高;而根系中K含量随K肥水平的升高变化不显著,与对照无显著差异。(4)根据临界浓度法确定‘花手鞠’叶片中N和P的适宜范围分别为35.31~46.64 g·kg-1和1.88~2.28 g·kg-1。综合考虑养分含量、植物生长指标及生产成本,盆栽绣球N、P、K肥适宜的用量为N2(8 g N·plant-1)、􀀁P1(1.5 g P2O5·plant-1)和K1(4 g K2O·plant-1)。

  • 藏文分词及其在藏汉机器翻译中的应用

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2017-03-10

    摘要: 本文提出一种基于判别式模型的藏文分词方法,并研究了藏文分词在藏汉机器翻译中的应用。根据藏文构词特性,通过最小构词粒度切分、感知机解码和分词结果重排序三个模块,显著提升了藏文分词质量。在此基础上,我们还提出了基于词图的藏汉机器翻译方法,缓解了分词错误在翻译中的传播,可以使翻译质量明显提高。

  • 云南古林箐喀斯特森林大样地木本植物区系地理学研究

    分类: 生物学 >> 植物学 >> 应用植物学 提交时间: 2024-05-15 合作期刊: 《广西植物》

    摘要: 该文以云南古林箐25 ha 喀斯特森林大样地为研究对象,通过样地调查、标本采集及 鉴定、植物区系分析、Jaccard 相似性系数和PCA 分析的方法,目的是探究云南古林箐大样地 的区系特征及地位以及与云南补蚌和广西弄岗大样地之间的地理联系。结果表明:(1)DBH ≥1 cm 的木本植物约有78 科238 属406 种(含种下单位且不包括木质藤本)。(2)该大样 地科以含2~5 种和含1 种的科占优势,分别占总科数的37.18%和34.62%,属以含2~4 种和含 1 种的属占优势,分别占总属数的30.25%和65.13%。(3)通过对科和属分布区类型进行分析, 发现科的分布区类型有9 种类型和7 种变型,其中“泛热带分布”的类型占比最大,占50.77%, 热带区系成分与温带区系成分的比值(R/T)为4.42;属的分布区类型有11 种,以“热带亚 洲成分”为主,“泛热带成分”和“旧世界热带成分”次之,分别占33.47%、18.22%、13.98%, R/T 为10.25。(4)云南古林箐、云南补蚌和广西弄岗大样地科和属组成的Jaccard 相似性系 数比较显示古林箐和补蚌具有最高的科和属相似性系数(分别为0.674 和0.395),补蚌和弄 岗的科和属的相似性系数最低(分别为0.575 和0.297)。(5)属的植物区系谱PCA 主成分 分析与属的相似性系数分析结果类似,但是科的PCA 分析结果与科的相似性分析结果不同, 科PCA 分析结果显示古林箐和弄岗具有更多的地理联系。综上所述,该样地科属组成丰富、 热带性质显著、区系起源古老、过渡地位明显、区系联系广泛。但是,物种组成和植物区系 谱比较不能得出上述3 个地区一致的地理联系结果。