中文短语相似度计算方法研究及应用

来源 :长沙理工大学 | 被引量 : 20次 | 上传用户:wangj30
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度计算作为中文信息处理中的一项基础性技术,被广泛应用到文本分类、文本聚类、信息检索等多个领域,长期以来受到了众多学者的关注和研究。在信息大爆炸所带来的大量文本信息的数据堆积中,很大一部分是短文本数据或短语数据,因此,在短文本数据信息的处理问题上,短语的相似度计算变得越来越重要。本文就是针对中文短语信息的处理问题,提出了一种新的中文短语相似度计算方法。在算法的设计过程中,本文分析了短语间相匹配文字的位置、匹配位置的偏移值、匹配文字长度等多种因素,提出了中文短语间相似度的计算公式,并给出了该算法的实现代码。围绕中文短语相似度计算问题,本文主要做了以下几方面工作:首先,研究了多种文本相似度计算方法,并分析了文本相似度计算的现状和几种经典的文本相似度算法,对其适用领域和优缺点进行了剖析;分析了文本相似度计算在文本聚类中的应用和几种文本聚类方法。其次,在对现有文本相似度计算方法分析研究的基础上,针对短语级别文本的信息处理问题,提出了一种新的中文短语相似度计算方法,然后对该方法的合理性进行了检验,并通过将不同的文本相似度算法用于同一种聚类算法,对本文提出的方法的有效性进行了检验。最后,将中文短语相似度计算方法用于高校培养计划管理系统中的相似课程排查模块,实现了相似课程的聚类,并对整个系统进行设计实现。本课题的研究及其成果对于中文信息处理中的多个领域尤其是中文短语的处理问题,都有一定的参考价值和良好的应用前景。
其他文献
分析了汝州市地方小煤矿安全基础管理工作中存在的问题,并针对小煤矿安全生产基础薄弱的现状,提出了切实可行的整改措施。
在激光选区烧结(SLS)过程中,铺粉对烧结成形的顺利进行和烧结成形质量都具有重要的影响,为此,对辊式铺粉过程进行了深入分析,并且用数学方法对铺粉过程进行了描述。在分析的
中国是乙型肝炎病毒(hepatitis B virus,HBV)感染的高流行区,特别在广东和广西等地,HBV感染率明显高于其他城市.而淋巴瘤是最为常见的恶性肿瘤之一,近几十年来其发病率有明显
聚偏氟乙烯(PVDF)膜由于具有很好化学稳定性和热稳定性,因此已被广泛应用于有机物/水的分离、膜蒸馏、工业及市政污水的处理、饮用水的净化以及聚合物电解质膜的制备等多个领域
20世纪80年代末,邓小平同志在回顾我国改革开放的经验教训时指出,十年最大的失误是教育,主要是思想政治教育。90年代末,伴随着社会转型,我国高等教育开始大幅度扩大招生规模
谶纬之学,包罗万象,既是封建迷信、民间信仰、传统习俗的载体,又有助于“补史、考地、测天、考文、征礼”,是中国传统文化的重要组成部分。因谶纬盛行于汉代,并在一定程度上
回顾、反思中国高等教育话语的历史与现实,流变、先进性和话语权问题是研究者普遍关注的三个基本问题。目前,高教界对这三个基本问题还存在一些论争和分歧。全面理解与深刻认
质量技术监管体制改革是当今中国政府行政管理体制改革的重要组成部分。以往的研究和实践往往注重事权的划分,而缺乏对其职能的科学定位。中国质量技术监管体制在很大程度上