基于贝叶斯及多模式串模糊匹配算法的不良短消息甄别混合模型

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:iris_1204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手机短信息业务一方面给人们带来诸多便利,另一方面一些不法分子利用手机短信息进行违法犯罪活动也日益猖狂,如何防范和打击此类犯罪活动对执法机关来说都是一个新的挑战.本文针对不良短消息的识别和分类问题,提出了一个基于贝叶斯分类算法和改进的多模式串模糊匹配算法的不良短消息甄别混合模型,以实现对不良短消息的识别和分类.短消息文本经由朴素贝叶斯分类器进行是否不良的判断,对确认为不良的短消息的主题关键词再经过多模式串的模糊匹配进行不良类别的分类.实验表明该方法提高了不良短消息识别的准确率,具有良好的应用前景和实际效益.本文重点分析不良短消息识别和分类过程.
其他文献
共指消解是指将多个命名实体指向现实世界中的同一实体,其目标是识别出文档中所有存在的共指关系。共指消解在自然语言处理任务中有着广泛的应用。选择合适的特征是共指消解任务中一个重要的组成部分.特征不是越多越好,反映本质的特征很重要;对于不同种类的语料,一个公共的特征集往往难以适应,为了提高特征对语料的针对性,对不同的语料应选择不同的特征.本文基于上述观点,采用粗糙集理论中的属性约简方法来解决共指消解的特
文本蕴含可以定义为:个连贯的文本(Text)T和一个被看作假设(Hypothesis)H之间的一种语义包含关系。如果H的意义可以从文本T的意义中推断出来,那么就说T蕴含H(即H是T的推断)。文本蕴含的研究对于自然语言处理中不同应用所需的语言表达多样性的推理识别有着重要意义。比如在多文本自动文摘中,从文本中省去的冗余句子或表达应该被摘要中的其他表达所蕴含;对于信息抽取,表达相同关系的不同文本之间也存
本文基于隐喻认知观和词语属性分析理论,利用网络数据挖掘技术,构建了基于《知网》语义体系的汉英双语词汇隐喻属性知识库,进行跨语言系统对比分析词汇隐喻属性.通过研究跨语言词汇隐喻属性的异同,用量化统计和系统分析初步地回答了隐喻的否跨语言特点,本文同时进而提出了利用双语知识库,以一种语言的词语隐喻来增益研究对译词语隐喻属性的方法,为基于隐喻属性的语义分析计算打下了一定的研究基础.
隐喻的计算语言学研究主要存在两个问题:隐喻理论多样且差异较大;隐喻知识库和语料库的可计算性不足.为解决隐喻理论与计算的衔接,寻找面向计算的隐喻分析框架,本文提出了利用易收集、本体喻体喻底易区分的明喻句作为媒介,通过分析其概念域的整合方式为其他隐喻方式的研究提供理论和计算依据的方法.语域受限的封闭语料穷尽分析试验表明,属性明喻句可通过凸显特征来计算;动作隐喻方式复杂,其可计算性比较低,并非现有知识库
基于依存语法的统计机器翻译中,由于依存文法的扁平化,随着节点数目的增多,解码过程中很难匹配到完整的规则,会有大量未覆盖节点需要进行粘贴操作,传统的粘贴操作采用邻近保序策略,但会在一定程度上造成译文顺序的混乱.本文构建了一个基于最大熵的粘贴模型,利用丰富的上下文信息指导译文粘贴.在NIST2005汉英测试集上的实验结果表明,使用粘贴模型能够有效的减少粘贴操作带来的错误影响,相对于基准系统提高了1.1
句子级对齐双语语料是自然语言处理的重要资源之一,对于机器翻译、跨语言检索、双语词典编纂等研究有很大应用价值.关于自动句子对齐的研究主要针对于英语、法语、汉语等语言,据了解,尚未见到针对越南语-汉语的相关研究.本文考查了使用不同参数时,基于长度的句子对齐算法、Champollion算法在越南语-汉语双语文本上的效果,并根据汉字与越南语音节间的独特对应关系对Champollion算法进行了改进,获得了
评价是信息检索研究长期关注的焦点,推动信息检索技术的进步.在简要分析Cranfield评价的优点和不足、基于检索日志进行检索评价的巨大潜力后,本文论述从搜索日志中获得可靠文档相关性估计存在的困难,分析了近年国内外研究人员提出的若干典型点击模型,并对其就可扩展性、增量可计算性、点击预测精度、模型的复杂性等方面进行讨论.简单的点击模型无法描述真实点击的多样性,点击预测精度也刻氏;复杂的模型带来的是计算
特征-观点对的抽取是观点挖掘中重要的研究课题之一,本文利用依存语法对句子的分析,研究了评论文本中特征-观点对的抽取.利用词对间的依存关系,构建了用于获取含情感倾向组块的规则以及候选评价对象的识别算法,在此基础上,设计了具有情感倾向的特征-观点对的抽取算法。本文对山西旅游景点评论语料进行了特征-观点对的抽取,实验结果表明,整体的F1值达到了87.10%,验证了算法的有效性。
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点.相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性.因此如何控制信息冗余是多文档自动文摘的一个关键所在.本文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过抽取关键句子及计算文本单元之间的相似度,通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的.
网络新闻热点发现的主要目的是从海量互联网数据中发现人们感兴趣的热点话题.在已有研究中,主要采用基于单篇报道的增量聚类方法.本文则提出一套针对单日新闻进行层次聚类,发现每日热点,再对热点进行增量聚类的框架.在对每日新闻的层次聚类中,本文定义了类内凝聚度指标,并提出基于类内凝聚度的聚类阈值确定策略.实验证明,本文提出的方案在相关任务中都取得了令人满意的效果.