一种基于认知情景框架的文本分类方法

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:mulan0924
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类领域,常用的特征选择方法(如文档频率)是基于概率统计信息的。本文从一个全新的角度,即基于认知情境的语义框架的角度进行特征选择,这种方法可以较准确地抓住文本类别的特征,对提高分类精度与分类效率起到促进作用。由于基于机器学习的文本分类方法近年来得到了广泛的关注与快速的发展,本文运用最大熵分类器,以“罢餐”类文本为例进行文本分类实验,召回率可达96.8%。
其他文献
语义理解已经成为计算机处理自然语言的瓶颈问题计算机实现自然语言理解,离不开语义词典。虽然目前已经开发出来—部分语义词典,但是,从词汇语义学、句法语义学和篇章语义学来分析,这些语义词典并不能全面反映语义关系。在帮助计算机理解自然语言方面,我们必须综合语言学、计算机科学和认知科学,不断探索研究。
领域词通常是由—个或多个领域部件词组成的短语,其领域性主要由部件词体现。由此,本文收集领域文本,将其中候选短语构建成短语网,并提出假设:具有相同部件词的领域词之间具有紧密的联系,互相推荐。在此假设下,本文利用领域词的内在联系,引入基于流形的半指导排序方法,标记少量领域词,通过短语网将领域性分数进行传播,从而计算出所有短语的领域性分数,选取高分的短语作为领域词。我们在4个领域上进行了实验,结果表明该
受到西方语言语法体系的影响,现代汉语中能够翻译成英语对应的从句的结构越来越多。但是因为汉语传统的语法结构与西方语言语法体系有着很大的不同,利用西方语言的句法分析方法对汉语句子进行语法分析始终无法达到令人满意的结果。句法分析效果不佳,就导致了像从句这类具有嵌套结构的句子翻译效果不会很好。本文尝试利用机器学习中的条件随机场方法先对这类从句结构进行识别,然后利用中心词转录机的方法进行基于依存关系的句法分
面向移动终端的统计机器翻译设备的需求越来越多,但翻译速度受无浮点运算单元的处理器制约。本文提出了一种对统计机器翻译的解码定点化方法,缓解了无浮点运算单元的处理器对翻译速度的影响。基于PC和移动终端的实验表明,定点解码器在保证翻译质量的情况下,其定点运算速度较浮点运算提高135.6%。因此,本方法可以有效地提高浮点运算能力薄弱的移动终端统计机器翻译设备的翻译速度。
短语预调序是提高机器翻译效果的有效手段。本文通过对英汉翻译中名词短语结构的分析,总结得到名词短语调序规则,通过将这些规则进行短语预调序,提高了最终的翻译效果。为了缓解专家规则覆盖范围太大的弊端,本文从大规模双语语料中自动获取实例规则。通过使用专家规则与实例规则进行短语预调序,进一步提高了英汉翻译的效果。
词语对齐是目前主流的统计机器翻译系统的基本模块,GIZA++是词语对齐最常用的工具,但是GIZA++的对齐结果仍然存在不足。本文从约束双语命名实体之间的对齐的角度出发,提出了一种改进词语对齐结果的方法:首先,识别双语命名实体;其次,用标记替换双语命名实体;再次,用GIZA++重新进行词语对齐;最后,将标记还原为原始的命名实体。实验表明,针对基于短语的机器翻译系统,该方法提高了NIST值,并且该方法
本文根据广播电视语言及其关键词的特点,提出通过建立过滤词典过滤垃圾串直接切分短语,并将切分好的短语序列作为关键词候选,进而对其进行各种权重因子的加权计算,最后根据统计结果按序抽取关键词的研究策略,构建了一个名为“传媒语言语料库关键词自动抽取”的软件系统。经过封闭和开放测试,该系统达到了实用性的要求。
由于目前的主题扩展方法不能从根本上改善信息检索的性能,提出一种基于百科知识库的主题扩展方法。百科知识库中对于主题进行了详细介绍,包含了大量的语义信息。本论文利用百科知识库扩展解决了传统主题扩展中没有融入语义信息的问题。实验证明,利用百科知识库得到的扩展词在检索上可以得到了很好的效果。
缩略语的使用顺应了语言的经济原则,但是也造成了越南语自然语言处理中的诸多障碍。本文在分析大量越南语字母缩略语使用特点的基础上,根据越南语字母缩略语词法、句法等特点,采用基于规则匹配的方法进行自动提取,最后生成一个缩略语及全称对应表。实验结果表明,本系统对已定义字母缩略语及其全称自动提取的准确率达到98.04%,召回率达到78.13%,F值灰到86.96%。
针对信息检索中文档与查询之间的词不匹配问题,研究者们提出了许多有效的解决方法,其中,查询扩展是一种非常重要的技术手段。本文提出了一种基于维基百科的查询扩展方法。通过对此方法在IR4QA系统中的表现分析,表明对于某些特定类型的问题,该方法可以使查准率有一定的提高。