【摘 要】
:
本文根据广播电视语言及其关键词的特点,提出通过建立过滤词典过滤垃圾串直接切分短语,并将切分好的短语序列作为关键词候选,进而对其进行各种权重因子的加权计算,最后根据统计结果按序抽取关键词的研究策略,构建了一个名为“传媒语言语料库关键词自动抽取”的软件系统。经过封闭和开放测试,该系统达到了实用性的要求。
论文部分内容阅读
本文根据广播电视语言及其关键词的特点,提出通过建立过滤词典过滤垃圾串直接切分短语,并将切分好的短语序列作为关键词候选,进而对其进行各种权重因子的加权计算,最后根据统计结果按序抽取关键词的研究策略,构建了一个名为“传媒语言语料库关键词自动抽取”的软件系统。经过封闭和开放测试,该系统达到了实用性的要求。
其他文献
提出了一种中文句子修剪方法。引入噪音通道模型,经过改进,提出了更适合句子修剪任务的Bi—NC模型。引入无导的方法,解决了中文中缺乏原句-压缩句对齐语料的瓶颈问题。提出了一种自底向上的层级优化算法,避免在优化过程中删除最优修剪句,解决了长句处理时间过长的问题。实验结果表明,本文提出的中文句了修剪方法获得了较好的效果。
用语料库获得数据来观察近义词在使用方法上的区别从而发现它们的使用规律是一种有效方法。本文利用报纸语料库和有声媒体部分语料库,并通过自建玄幻小说语料库,对“非常”、“特别”和“相当”进行了定量考察,研究了各个词内部自身功能的使用概率、相同用法在语域上的分布、以及作近义词时相互之间的互换能力。
句义的核心内容由命题和情态两部分构成,格关系和槽关系是对命题的深入研究,副词、能愿动词等状元则是情态的一部分,目前中文信息处理领域还缺乏深入、系统的研究。本文在介绍前人研究成果的基础上,从“事件描述块句法语义标注语料库”中抽取了副词、能愿动词连用的句子929个,对现代汉语状元的槽序进行了深入的研究,共得出现代汉语状元槽序120种,其中两个槽类连用的共774个、52种,三个槽类连用的共145个、58
领域倾向性词典有助于提高文本倾向性挖掘的精度,是文本倾向性挖掘研究的一个热门话题。本文分析了文本级算法构建词表的局限性。提出了一种基于句子级的领域词表构建算法。该算法引入了拉普拉斯平滑计算相关性,并将文档词频和逆文档频率的概念扩展到句子级,最后采用IB算法来对候选词进行聚类。采用该方法对酒店领域的语料进行领域倾向性词表的构建,得到了准确率为71.55%的结果。
语义理解已经成为计算机处理自然语言的瓶颈问题计算机实现自然语言理解,离不开语义词典。虽然目前已经开发出来—部分语义词典,但是,从词汇语义学、句法语义学和篇章语义学来分析,这些语义词典并不能全面反映语义关系。在帮助计算机理解自然语言方面,我们必须综合语言学、计算机科学和认知科学,不断探索研究。
领域词通常是由—个或多个领域部件词组成的短语,其领域性主要由部件词体现。由此,本文收集领域文本,将其中候选短语构建成短语网,并提出假设:具有相同部件词的领域词之间具有紧密的联系,互相推荐。在此假设下,本文利用领域词的内在联系,引入基于流形的半指导排序方法,标记少量领域词,通过短语网将领域性分数进行传播,从而计算出所有短语的领域性分数,选取高分的短语作为领域词。我们在4个领域上进行了实验,结果表明该
受到西方语言语法体系的影响,现代汉语中能够翻译成英语对应的从句的结构越来越多。但是因为汉语传统的语法结构与西方语言语法体系有着很大的不同,利用西方语言的句法分析方法对汉语句子进行语法分析始终无法达到令人满意的结果。句法分析效果不佳,就导致了像从句这类具有嵌套结构的句子翻译效果不会很好。本文尝试利用机器学习中的条件随机场方法先对这类从句结构进行识别,然后利用中心词转录机的方法进行基于依存关系的句法分
面向移动终端的统计机器翻译设备的需求越来越多,但翻译速度受无浮点运算单元的处理器制约。本文提出了一种对统计机器翻译的解码定点化方法,缓解了无浮点运算单元的处理器对翻译速度的影响。基于PC和移动终端的实验表明,定点解码器在保证翻译质量的情况下,其定点运算速度较浮点运算提高135.6%。因此,本方法可以有效地提高浮点运算能力薄弱的移动终端统计机器翻译设备的翻译速度。
短语预调序是提高机器翻译效果的有效手段。本文通过对英汉翻译中名词短语结构的分析,总结得到名词短语调序规则,通过将这些规则进行短语预调序,提高了最终的翻译效果。为了缓解专家规则覆盖范围太大的弊端,本文从大规模双语语料中自动获取实例规则。通过使用专家规则与实例规则进行短语预调序,进一步提高了英汉翻译的效果。
词语对齐是目前主流的统计机器翻译系统的基本模块,GIZA++是词语对齐最常用的工具,但是GIZA++的对齐结果仍然存在不足。本文从约束双语命名实体之间的对齐的角度出发,提出了一种改进词语对齐结果的方法:首先,识别双语命名实体;其次,用标记替换双语命名实体;再次,用GIZA++重新进行词语对齐;最后,将标记还原为原始的命名实体。实验表明,针对基于短语的机器翻译系统,该方法提高了NIST值,并且该方法