统计语言模型相关论文
随着我国移动网络行业和大数据技术的快速发展,各类互联网应用层出不穷,导致互联网用户规模呈指数级增长,因此累积了海量非结构化......
目前语音识别技术中运用较成熟的高斯混合-隐马尔科夫模型(Gauss MixedModel and Hidden Markov Model,GMM-HMM),其结构简单,实现方......
合成生物学是最近兴起的生命科学领域的一个迅速发展的重要分支,它与物理学、工程科学、化学、计算机等学科交叉结合。而合成生物......
程序员在编程过程中随时可能遇到困难,此时与程序员已编写代码相关的高质量代码示例有助于程序员理解代码并快速完成编程任务。但......
本文对文本检索中的查询生成模型进行了扩展,提出一种基于交叉熵(Cross-Entropy)的CELM检索模型.通过统计语言建模技术,CELM模型把......
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perpl......
自动校对是自然语言处理领域中一项重要的研究内容。在蒙古文信息处理研究中,对蒙古文自动校对的探索还没有提出一个很好的解决方......
数据稀疏是统计语言学研究中一个永久的话题.如何解决数据稀疏问题?如何使数据不稀疏?一直是大家所关心的问题.本文仅仅从模型和数......
统计方法处理口语至今仍然是口语处理的核心技术. 目前处理水平较高的英语,中文及日本语等语言均采用统计处理方法. 但是,各自语言......
在词汇级的中文语言处理中,存在两个基本的问题:其一是汉语自动分词,其二是中文命名实体识别。通常的系统都把这两个任务分开处理,也就......
自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种能够模拟人类语言认知过程的计算模型。但是当前......
在迅速发展的Web时代,问答系统在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对问答系统的要求也越来越高,其......
该文主要研究构造汉语统计语言模型的关键技术及其在手写体汉字识别后处理中的应用方法.具体地讲,该文从如下几个方面进行了研究.......
该文针对日文名片自动录入设计了一套实用的OCR识别知识后处理系统.该文在对日文名片的特点进行分析的基础上,提出了基于名片内容......
该文研究的音字转换模块中,首先实现了对用户键盘输入拼音串的分析和预处理,以汉语拼音知识为指导,研究了拼音流的自动切分、检错......
自然语言处理已经发展了几十年,近年来随着互联网的高速发展,人们使用计算机处理自然语言的需求越来越多。词是最小的语言单位,而汉语......
统计语言模型是很多自然语言处理任务的重要模块。一般而言,用来训练语言模型的数据量越大,训练得到的语言模型质量越好。Google公司......
汉字输入技术是中文信息处理领域特有的一项基础性关键技术,中文输入法是中文用户使用计算机必备的应用软件。依赖于键盘的中文输入......
本文主要是分析在历史网页搜索中若干导致用户不满意检索结果的原因,并提出解决方案。在历史网页搜索中一个重要的特点:检索结果按......
该论文描述了一个专为松下网络OCR引擎开发的OCR后处理系统.这个OCR引擎使用的是比较新但还不成熟的技术,现在它的词层识别正确率......
自然语言处理是人工智能的一个重要分支。汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。汉语......
统计语言模型是自然语言处理中一个非常重要的研究方向。它使用统计学的办法来估计自然语言中词的概率分布并以此来计算一句话出现......
本文主要研究SLM-based检索模型与传统检索模型的对比,以及SLM-based检索模型中的数据平滑技术,包括参数平滑和语义平滑。首先本......
随着网络信息的发展,信息自动分类已经成为人们获取有用信息不可或缺的工具。贝叶斯作为其中的一种分类方式,应用在众多领域。贝叶......
自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种能够模拟人类语言认知过程的计算模型。但是当前......
近年来随着手机技术的发展与手机的普及,基于手机的应用服务也越来越多,包括短信、网络浏览甚至可以进行个人信息的处理工作.一种......
Kukich从智能处理技术的角度将英文的文本错误分成两大类:孤立词错误(isolated-worderror)和上下文依赖词错误(context-dependentwo......
词法分析是自然语言处理领域中最基础的处理步骤,尤其对汉语这种没有分割符的语言来说更是如此。本文研究的汉语词法分析主要包......
互联网时代的到来,使得高效的搜索引擎成为人们获取信息的最重要手段之一,信息的日益国际化及语言之间的障碍形成了人们对跨语言信息......
语音识别(speech recognition)是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种......
智能中文输入技术在桌面平台已经得到了广泛的应用,通过研究手机平台汉字输入的特点,本文将智能输入技术引入到手机平台上,并在手机平......
信息检索模型是对信息检索任务及实现方法的一种抽象描述。信息检索模型是信息检索理论研究的一个核心内容,因此对于它的研究有重......
语言模型在语音识别中占据着重要的地位,它担负着把拼音转化成汉字的重任,语言模型性能的好坏直接影响到语音识别的结果好坏。当前......
学位
互联网已经成为目前最为重要的广告媒介之一,它能够以低成本将商品和服务向全世界的各个角落展示,这种独特能力吸引了众多的网络广告......
随着Internet的迅猛发展,电子文本信息迅速膨胀,文本分类系统作为处理和组织电子文本信息的一项重要技术,成为信息处理领域不可或缺的......
随着互联网的广泛应用,语料库知识的不断扩大,人们希望能从这些语料中进一步挖掘出更多有用的信息,其方法通常是建立一个面向各自应用......
随着智能终端的飞速发展,在移动端市场上,开发一种具备篇章级连续手写能力的输入法是很有必要的。本文提出了一种全新的手写输入模......
近年来,随着自然语言处理技术的发展和大规模语料库的出现,各类自然语言应用中使用的语言模型规模也越来越大。机器翻译是大规模语......
随着语音识别技术深入广泛的应用,它越来越将成为模式识别中的一个非常重要的研究课题,它的发展将会对未来的生活、工作带来极大的......
在信息检索系统中,由于用户查询语句过短而导致的词不匹配、信息迷向和信息过载等问题,成为制约检索质量的主要因素之一。实践表明,根......
随着人们对计算机自动化和智能化的渴望,人工智能的发展和研究应运而生。自然语言处理作为人工智能的重要研究方向之一,在对语言处......
API补全是当今开发者们使用最为频繁的代码补全方法之一。近年来,大数据与人工智能技术发展迅猛,这为API补全带来了新的可能。其中......
文本分类能帮助有效组织信息,快速区分信息质量,满足用户个性需求.本文主要介绍的内容有文本分类的背景、国内外的研究现状以及利......
文本分类技术是近年来自然语言处理研究领域的一个热点,向量空间模型(VSM)是文本分类的经典模型,该模型在应用时假设词与词之间是相......
本文提出了一种有效的汉语分词方法。该方法在计算N元概率时采用统计语言模型中常用的Katz平滑算法,对计算N元概率时所用的最大似......