困惑度相关论文
随着互联网络和信息技术的快速发展,人类获得信息的途径越来越多,然而如何在大量数据中获得符合用户喜好的信息,给用户带来更好的体验......
为了获得高质量的NMT模型,大规模并行语料库是必不可少的。使用反向翻译构造伪造语料库,这些伪造语料中存在大量的噪声,这些噪声会......
声学模型描述的准确性和鲁棒性是影响语音识别系统性能的一个重要因素.声学模型的三个基本问题是特征参数的提取与选择,模式划分和......
语言模型是描述自然语言内在规律的数学模型,在自然语言处理过程中占据着重要的地位,但目前维吾尔语语言模型的研究尚处于起步探索阶......
语言模型在语音识别中占据着重要的地位,它担负着把拼音转化成汉字的重任,语言模型性能的好坏直接影响到语音识别的结果好坏。当前......
学位
词对齐技术是统计机器翻译中的翻译模型和调序模型的基础,这表明了词对齐技术是统计机器翻译系统中最重要部分。同时,词对齐技术在......
近年来,卷积神经网络在很多领域都取得了显著的成功,尤其是在图像识别领域,其准确率已十分接近甚至超过相关专家的水平。然而,卷积......
语言模型是语言知识的主要表现形式,语言模型的研究成果必将有助于提升自动文摘、语音识别、机器翻译等多种自然语言处理系统结果......
本文在大规模语料的基础上,利用语言模型中稀疏事件的概率估计方法对汉语的熵进行计算,并讨论了语料规模等因素对熵的影响.在4年的......
针对二元模型,提出了一种基于互信息的回退(MI Back-off)平滑算法.从互信息的角度,分析词之间的搭配关系,根据模型中每个二元对的......
基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速......
Stack Overflow是一个热门的国外编程问答网站,通过对该网站编程提问帖的问题文本进行文本语义挖掘,能获析用户关注的编程热点。由......
针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram......
数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题.现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事......
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现......
跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评......
数据平滑是用来解决统计语言模型在实际应用中遇到的数据稀疏问题.现有平滑技术利用不同的折扣和补偿策略来处理数据稀疏问题,在计......
针对基于维吾尔语的N-gram模型统计数据稀疏问题造成统计模型识别性能降低,研究针对政府文献和报告领域的语料进行了1到3元文法统......
作为文本挖掘的热门技术,主题模型在专利分析上的应用日益增多,但由于常用作语料的专利摘要中存在科技术语繁多、同义词大量存在和文......
由于庞大的训练语料,统计语言模型的大小往往会超出手持设备的存储能力。随着现阶段资源受限设备的迅速发展,语言模型的压缩研究也就......
针对资源稀少情况下小语种的声学建模问题,提出根据解码后文本的困惑度挑选无监督数据并重新训练声学模型的策略.使用少量精标数据训......
随着手持设备的发展,语言模型压缩在研究中占据着重要位置。使用互信息和熵差相结合的方法对二元模型进行压缩。其基本思想是首先......
【目的】有效确定科技情报分析中LDA主题模型的最优主题数目。【方法】利用主题相似度度量潜在主题之间的差异,同时结合困惑度提出......
[目的/意义]使用融合多属性的量化方法,快速且有效地挖掘出领域内多个技术创新主题,为技术创新方向的确定提供借鉴。[方法/过程]将......
文章对LDA主题模型最优主题数确定方法进行了改进。选取CNKI学术期刊中关于政府补贴和企业创新相关的文献作为研究对象,运用观点挖......
为了降低法律文本中的无关词语对分类的影响和突出法律关键词汇的作用,采用主题模型建立一种基于法律词汇加权的文本分类模型。针......
本文以维吾尔语拼写检查方法作为研究对象,提出以词典、形态分析、统计为基础的拼写检查方法。维吾尔语是黏着语言,富于形态变化,难以......
目前用来评价机器翻译系统译文质量的方法主要有IBM提出的BLEU、TER和METEOR等方法,分别以词汇的重现率、译文与参考译文之间的编......
针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram......
基于位置社交网络的兴趣点推荐越来越受到工业界和学术界的关注。由于用户签到数据集的稀疏性以及签到地理位置的聚集性,使得目前......
N-gram模型是自然语言处理中最常用的语言模型之一,广泛应用于语音识别、手写识别、拼写纠错、机器翻译和搜索引擎等众多任务.但是......
本文结合了在语音识别系统中的实际应用来研究统计语言模型的原理与实现问题。探讨了统计语言模型中数据稀疏问题的解决,并尝试结......
目前对于中文影视剧本的分类主要借助人工经验,具有成本高、效率低等特点.当前没有针对中文影视剧本主题自动分类的相关研究,本文......
[目的/意义]为展现学科间知识交流的研究内容、探测学科间知识交流的趋势,利用CTM模型从文献中提取学科间知识交流的主题,研究对促......
针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档......
从海量科技文献中自动挖掘隐含主题、研究人员的研究兴趣及其演化规律是信息服务迈向知识服务需要解决的关键问题之一。目前的方法......
话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题......
文章在Linux环境下搭建Srilm建模平台,然后对语料进行分块处理,并用N-gram count和N-gram进行计数和语言模型的建立,利用几种平滑......