N-gram模型相关论文
中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为......
随着互联网在社会进程中的快速发展,人们的生活越来越离不开网络,在使用网络的过程中,用户的身份及行为信息也都会被保存在网络上,......
随着计算机和互联网技术的发展,网络安全问题日益突出,入侵检测系统是维护网络安全的重要手段。目前,入侵检测系统中所开发的模型......
统计语言模型是上世纪80年代兴起的语言建模方法。经过20多年的发展,它已经渗透到了计算语言学的各个层面,并且在以下各个领域都取得......
随着Internet的快速发展,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但随着Interne......
随着互联网技术的飞速发展,网络安全越来越受到人们重视。恶意病毒检测是信息安全领域一个重要课题,其中对HTTP攻击检测是新的研究热......
在大规模的文件存储系统中,元数据访问性能的优化对文件系统的整体性能提高有着非常重要的影响。为了使元数据服务的性能达到最优,......
在已经到来的Web 2.0时代,搜索引擎在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对搜索引擎的要求也越来越......
随着互联网和信息处理技术的飞速发展,电子书、电子报纸、电子邮件等电子文本已成为人们日常生活的一部分,同时文本错误也越来越多......
航天技术的飞速发展累积了大量的航天情报信息,这对情报管理工作提出了更高的要求,传统的人工管理方式已经不能满足需求,为了更加......
文本校对是蒙古文自然语言处理的基础工作之一,文本校对工作的推进将直接影响到蒙古文信息处理工作的有序开展。为了解决传统蒙古......
在软件开发过程中,开发人员会收到并处理用户提交的大量缺陷报告。为了提高开发人员处理缺陷报告效率,对于一份查询缺陷报告,本文......
医学影像分类技术是计算机辅助诊断中的关键技术,但是“语义鸿沟”、数据不均衡、维数灾难等问题阻碍了分类模型在临床中的推广。......
本文采用自然语言处理技术,通过分析中文文本一般错误类型,并结合新闻领域文本的特征,确定研究范围为基于同音词替换产生的短距离......
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法.充分挖掘训练......
本文针对多媒体文档的融合和提取进行研究和试验,提出了一种多媒体文档融合方案对教学场景中的视频、声音、教案数据和操作序列等......
近年来,智能人机交互在人们的日常生活中占据了越来越重要的地位。随着人机交互的不断发展,要求人们使用更加直观快捷的交流方式。......
摘要:哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特......
本文运用语料库语言学统计与规则相结合的方法对中文文本自动查错的有关问题进行探讨,运用词二元与三元接续关系进行查错,主要依据......
针对当前垃圾邮件账户撰写虚假在线评论,降低评论网站可信度的问题,提出一种基于自然语言处理和机器学习的短文本作者识别算法,该......
随着社会生活网络化的日趋成熟,在很多研究和商业领域里都遇到了中文文本处理问题。不断深化的文本分类研究需要从文本的各个方面......
在目前的电视台采访和录音中,有大量的文本任务需要使用语音识别软件进行从语音向文字的转换。如今语音识别的准确率虽然已经足够......
在大数据时代,网络上的信息量获得了爆炸性增长,准确的网页分类技术有助于用户从海量网页中迅速定位到自己感兴趣的信息。网页分类......
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检......
语言是人与人之间沟通的桥梁,语言识别技术作为一种非常重要的技术,对于促进世界文化交流有着十分重要的意义。目前,N-gram模型是......
基于统计的自然语言处理模型采用统计方法进行自然语言建模.实际应用过程中可根据具体情况在多种模型中选择适当的模型.本文简要介......
对已有的N-gram平滑算法进行了系统地分析,分别实现了Absolute、W-B和Katz平滑算法.为解决传统Katz平滑算法在处理某些汉语固定搭......
针对基于统计模型的中文分词系统,从系统实现的角度探讨了主流的相关技术,涉及:n—gram语言模型,语科库,统计模型的参数估计及参数平滑......
音字转换是汉语言信息处理的一个重要方面,在语音识别、汉语拼音输入等方面都有广泛的应用。本文首先回顾了词树的理论知识,然后对词......
摘要:本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀......
针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本......
为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题,以汉英音译为主要研究对象,运用统计与规则的理论思想,提出融合......
在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER......
问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的......
该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不......
迅猛发展的高性能计算的目前已经成为金融行业的核心竞争力。高性能计算系统的并行计算能力,能够有效提升高频现金流精细分析的效......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
如今,随着智能终端的普及和互联网的快速发展,互联网已经成为人们分享知识和在线交流的重要场合。尤其是网络新闻平台的迅速发展,......
情景感知服务(Context-Awareness Services)借助信息技术为用户提供自适应服务,卓著的个性化特性使其将成为下一代杀手级应用。本文综......
针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过......
新媒体平台每天原创新闻发布量巨大,采用人工审核内容中的错别字已经不切实际。本文提出了一种基于n—gram模型与规则相结合的方法,......
通过对全球恐怖主义数据库(GTD)进行分析,为未来反恐防恐行动提供有价值的信息支持,提出利用大数据挖掘方法对未来反恐态势进行分......
电子文本往往包含各种错误,纠错环节的工作量较大,人工纠错的方式已经无法解决迅速增长的电子文本。为此利用计算机自动对文本进行......
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提......
N-gram模型是自然语言处理中最常用的语言模型之一,广泛应用于语音识别、手写识别、拼写纠错、机器翻译和搜索引擎等众多任务.但是......
搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在......
实体名是一个文本中最基本的信息元素,它是正确理解一篇文章的基础,实体名识别对机器翻译、文本检索等都有着重要的指示作用。目前......
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要......
语言是人类沟通的主要工具,英语是国际通用的交际语言。进入21世纪,随着世贸组织的成功加入、北京2008奥运会和上海2010世博会的相继......
现今纳西象形文在各种外来文化和现代文明的渗透下,正在迅速地变异和消亡。当前使用纳西语言文字的人数大约有五十万,如何借助计算......