N-gram相关论文
工程建设项目施工招标投标活动是建设工程管理实践中的重要环节,其目的是维持建设工程市场秩序,促进良性公平竞争,维护项目各参与......
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡......
代码作者归属是识别给定代码作者的过程。随着越来越多的恶意软件和先进的变异技术出现,恶意软件的作者正在创造大量的恶意软件变......
[目的]提出一种基于多语义词向量的中文新词发现方法(MWEC),解决多领域社交媒体文本的分词不准确问题.[方法]利用社交媒体文本,结......
自然语言是人类按照某种规则组成的语言,如汉语、英语和法语等。而自然语言处理则是利用计算机对自然语言的形、音、义等信息进行......
三维模型或三维物体作为三维世界的基本元素,在人类感知世界、认识世界的过程中扮演着必不可少的角色。随着计算机技术的发展,如何让......
软件缺陷与漏洞是造成软件安全问题的根源,对缺陷和漏洞进行预测是软件测试领域的重要组成部分,有助于合理分配测试资源,是提高软件质......
Text classification is a fundamental task in Nature language process (NLP) application.Most existing research work relie......
我们提出了一种基于n-gram的大规模中文文档自动聚类方法.该方法将自动聚类首次引入中文文档语义信息组织中,绕开了切词、语法分析......
互联网提供了大量的广泛分布和高动态资源信息,网页信息分散且不方便管理。网页分类能有效解决这些问题。在网页分类过程中,选取特征......
摘要:朴素贝叶斯算法由于其具有简单、稳定和高效的优点,被广泛运用在文本分类领域,但由于算法所涉及属性的独立性和同等重要性,算法的......
SIP是应用层的多媒体通信协议。SIP协议结构简洁、易于扩展,已经被广泛地应用到VoIP、多媒体会议等场景中。由于IETF在设计SIP协议......
信息技术与互联网的飞速发展,在给各行各业带来极大便利的同时,网络安全问题也愈来愈突出,各种网络安全入侵行为层出不穷。传统防......
对于社交媒体平台而言,识别和标注出特定语言的文本对于情感分类、趋势提取、预测电影评分等研究都具有重要的现实意义。传统的语......
甲基化是DNA序列化学修饰的一种形式,可以导致遗传物质的染色体的结构发生变化,因此DNA甲基化在DNA遗传表达中起着十分重要的作用......
中文自动分词是指使用机器学习根据特定规范将连续的字序列重组为词序列的过程,是自然语言处理的第一步,这对自然语言处理有着重大......
恶意软件往往利用计算机系统漏洞和安全防御机制的落后来达到恶意破坏或窃取资料等目的。安全防御机制的目标就是能检测出恶意软件......
语种识别作为多语种语音识别技术的前端,在国际交流与合作中扮演着越来越重要的角色。当前语种识别系统使用的特征可分为声学特征......
中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直......
The explosive growth of malware variants poses a major threat to information security. Traditional anti-virus systems ba......
在如今大数据环境中包含大量不同语种的网络短文本数据,尤其是在国内多民族地区的网络环境中多种语言混杂的情况普遍存在.为了解决......
摘要:语音合成是哈萨克文信息处理技术的一个重要研究领域。哈萨克文本中的阿拉伯数字转换为其读音文本是语音合成中重要的预备工作......
摘要:在AI技术快速发展的今天,AI应该应用到每一个角落。本文选择在最常用的工具软件输入法软件中加入深度神经网络算法,利用长短期记......
本文通过对荣华二采区10...
事实验证任务要求能够从大规模的文本语料库中抽取相关的证据,并通过推理对给定的声明得出事实性的判断。现有的研究通常将检索到......
Document subjectivity analysis has become an important aspect of web text content mining. This problem is similar to tra......
该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查......
This paper discusses the importance of the classification of short message, and details some key technologies related. T......
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML......
提出了一种语句级汉字输入技术,把N-gram统计语言模型与语言规则结合起来共同指导拼音流到文字流的转换过程.描述了拼音流自动切分......
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建......
中文垃圾邮件的泛滥提出了极为迫切的技术诉求.本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,......
以应用题自动求解为目标,以高考入学考试数学试卷中的分层抽样应用题为研究对象,重点研究了分层抽样应用题的句子语义角色识别方法......
Deep Web中,查询接口属性的抽取是Deep Web数据集成中必不可少的一个环节。本文通过将接口属性中文文本翻译成为汉语拼音和英文,利......
Deep Web中,查询接口属性的抽取是Deep Web数据集成中必不可少的一个环节。本文通过将接口属性中文文本翻译成为汉语拼音和英文,利......
Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofread......
本文专门研究了汉语语言模型的规模大小,语法元数在英汉统计机器翻译系统中的影响。实验表明,对于同样的语言模型,基于层次短语的......
统计自然语言处理中,一个很复杂的问题是数据稀疏问题。主要有两种平滑方法解决:回退法和线性插值法。本文分析和比较了几种典型的......
网络入侵检测系统使用大量特征集来识别入侵,需要处理庞大的网络流量,目前大多数现有的系统缺乏实时异常检测能力.提出了一种基于......
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和......
搭配是语言中习惯性的结伴使用,在统计上具有显著性;搭配具有语言学特征,在词类、位置和句法结构上相对固定。搭配提取正是基于上......
选择基于统计的开源Masaru语法检查器为研究对象,分析技术路线与功能特点,提出了增加3元4元模型方法,并在系统中实现了3元4元语言......
本文针对传统统计语言模型的离线自适应方法 ,提出了一种在线实时的递增式自适应方法。该自适应方法需要解决几个问题。第一是要设......
本文针对传统统计语言模型的离线自适应方法 ,提出了一种在线实时的递增式自适应方法。该自适应方法需要解决几个问题。第一是要设......
提出一种新的无监督的方法,对网络上存在的大量中文产品评论信息进行处理,生成简洁的非结构化的可读性强且具有代表性、简洁性的理......
针对不同语种中“语音模式”搭配关系不同的特点,提出一种基于“语音模式”发现的语种识别方法.首先采用无标注语音数据训练GMM模......
为了有效地抑制VB程序代码抄袭现象,提出一个基于N-gram的VB源代码抄袭检测方法,利用N-gram来表示VB代码文件,以提高检测准确率。......
为了有效地抑制VB程序代码抄袭现象,提出一个基于N-gram的VB源代码抄袭检测方法,利用N-gram来表示VB代码文件,以提高检测准确率。......
随着计算机和互联网技术的发展和普及,计算机病毒所带来的安全威胁日趋严重。基于特征码扫描的病毒检测技术是目前检测已知病毒最......