N-gram相关论文
工程建设项目施工招标投标活动是建设工程管理实践中的重要环节,其目的是维持建设工程市场秩序,促进良性公平竞争,维护项目各参与......
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡......
当前主流计算机辅助翻译系统(CAT)借助翻译记忆(TM)和术语库(TB)提高翻译效率.翻译记忆以自然句为主要匹配单位,需要整句相似或重......
代码作者归属是识别给定代码作者的过程。随着越来越多的恶意软件和先进的变异技术出现,恶意软件的作者正在创造大量的恶意软件变......
自然语言是人类按照某种规则组成的语言,如汉语、英语和法语等。而自然语言处理则是利用计算机对自然语言的形、音、义等信息进行......
网络舆情热点发现是一种常用且处理速度要求较高的应用.针对网络舆情热点发现这一特殊应用场合,本文提出了一种基于随机N-Gram的文......
近年来,软件的网络化、服务化使用成为一种新的趋势。在虚拟化软件按需流式加载的执行过程中,程序会因请求缺失的数据而被阻塞直至数......
三维模型或三维物体作为三维世界的基本元素,在人类感知世界、认识世界的过程中扮演着必不可少的角色。随着计算机技术的发展,如何让......
随着网络信息量的急剧增长,如何在短时间内找到自己需要的信息成为人们关注的焦点.文本主客观分类是意见挖掘、观点抽取的核心技术......
In this paper,a new method for automatic classification of texts is presented.This system includes two phases;text pro......
工控协议是网络协议的一个分支,在工控系统的信息安全研究中,协议安全是其中相当重要的一部分。目前工控协议缺乏统一规范,产生了......
古籍文本检索目前大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引......
Text classification is a fundamental task in Nature language process (NLP) application.Most existing research work relie......
源码相似性度量是代码推荐、缺陷监测、代码搜索等很多软件工程领域任务的基础工作。传统的源码相似性度量方法主要利用统计方法从......
我们提出了一种基于n-gram的大规模中文文档自动聚类方法.该方法将自动聚类首次引入中文文档语义信息组织中,绕开了切词、语法分析......
互联网提供了大量的广泛分布和高动态资源信息,网页信息分散且不方便管理。网页分类能有效解决这些问题。在网页分类过程中,选取特征......
摘要:朴素贝叶斯算法由于其具有简单、稳定和高效的优点,被广泛运用在文本分类领域,但由于算法所涉及属性的独立性和同等重要性,算法的......
SIP是应用层的多媒体通信协议。SIP协议结构简洁、易于扩展,已经被广泛地应用到VoIP、多媒体会议等场景中。由于IETF在设计SIP协议......
信息技术与互联网的飞速发展,在给各行各业带来极大便利的同时,网络安全问题也愈来愈突出,各种网络安全入侵行为层出不穷。传统防......
对于社交媒体平台而言,识别和标注出特定语言的文本对于情感分类、趋势提取、预测电影评分等研究都具有重要的现实意义。传统的语......
甲基化是DNA序列化学修饰的一种形式,可以导致遗传物质的染色体的结构发生变化,因此DNA甲基化在DNA遗传表达中起着十分重要的作用......
恶意软件往往利用计算机系统漏洞和安全防御机制的落后来达到恶意破坏或窃取资料等目的。安全防御机制的目标就是能检测出恶意软件......
语种识别作为多语种语音识别技术的前端,在国际交流与合作中扮演着越来越重要的角色。当前语种识别系统使用的特征可分为声学特征......
随着信息技术的不断发展,各种SQL注入攻击工具层出不穷,攻击类型多变万化,SQL注入问题一直是网络安全的主要问题。因此,针对SQL注......
目前对于《毛泽东选集》的风格研究大部分着重理论探讨,论证的具体数据相对缺乏,使得这一类研究很难有创新点。本文利用汉字文本n-......
中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直......
以微博为主要载体的网络新词具有数量多、口语化、不严谨、波动性强的特点.根据这些特点和网络新词的产生规律,提出了使用规则和N-......
针对基于汉语词的 Ngram 模型统计数据稀疏问题和应用域变化造成原统计模型识别性能降低,提出具有应用域适应能力的 Ngram 模型平滑算法。......
本文提出了一种统计与规则相结合的术语自动抽取方法,采用n-gram方法抽取候选术语,然后通过对SCP和C-Value方法进行改进来度量候选......
本文提出了汉语大词表的N-gram统计语言模型构造技术,根据信息论的观点,给出了自然语言处理中各种应用中的统计语言建模的统一框架描述,提出......
The explosive growth of malware variants poses a major threat to information security. Traditional anti-virus systems ba......
在如今大数据环境中包含大量不同语种的网络短文本数据,尤其是在国内多民族地区的网络环境中多种语言混杂的情况普遍存在.为了解决......
[目的/意义]从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业术语的映射提供基础,进而优化健康类知......
摘要:语音合成是哈萨克文信息处理技术的一个重要研究领域。哈萨克文本中的阿拉伯数字转换为其读音文本是语音合成中重要的预备工作......
文章提出了N-gram模型在机器翻译系统中的几个应用.模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的候选......
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建......
This paper presents a new linguistic decoding method for online handwritten Chinese character recognition. The method em......
摘要:在AI技术快速发展的今天,AI应该应用到每一个角落。本文选择在最常用的工具软件输入法软件中加入深度神经网络算法,利用长短期记......
本文通过对荣华二采区10...
事实验证任务要求能够从大规模的文本语料库中抽取相关的证据,并通过推理对给定的声明得出事实性的判断。现有的研究通常将检索到......
Document subjectivity analysis has become an important aspect of web text content mining. This problem is similar to tra......
该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查......
This paper discusses the importance of the classification of short message, and details some key technologies related. T......
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML......