基于文本相似度计算的文本聚类算法研究与实现

被引量 : 0次 | 上传用户:lilac_cs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是知识挖掘领域中一个非常重要的技术手段,对于文本信息挖掘、知识检索有非常重要的作用。在实际工作中,一些政府部门需要浏览大量的文字信息,根据这些信息制定相应的预案。但是有限的人力同海量的信息比起来,让人们在处理这些信息上显得力不从心。这时我们需要一种技术,能够帮助人们快速的实现文本分类工作,增加文本信息处理的效率。本文设计了一个文本聚类系统的框架,并详细分析讨论了系统中各子模块的设计和实现。本文主要在以下方面进行研究:1.传统的向量空间模型存在高维稀疏问题,针对这个问题本文设计一个关键词概念列表作为文本表示模型。本文认为准确抽取文章中的关键词即可把握文章的主旨内容,并运用某种规则计算这些关键词的权重,从而将半结构化的文本转换为结构化模型。2.以待处理的文本集为语料库,自动构建一个能作为语义支持的语义库,以文本表示模型为索引,结合原文形成一组能代表文本主题的关键句群,计算文本的表层相似性、语义相似性及词序对相似度的影响因子,将这些方法做加权和生成两文本的相似度。3.文本聚类算法上时对DBSCAN算法的改进。该方法适当调整文本聚类判别条件,能够强化簇内数据对象间的关系强度。最后基于上述设计与算法,建立一个文本聚类系统,并通过实验分析证实了本文的研究结论和推导具有可行性。
其他文献
当今是一个信息时代,它将所有人的一切,人身、财产、年龄、种族、健康、经历、教育程度等,不管是公开的还是隐匿的,美好的还是丑陋的,都信息化或者正在进行信息化。个人的信
当今社会已经步入信息时代,信息已经成为政府和企业正常运转不可或缺的重要资源,由于个人信息兼具人格和财产双重属性,在个人信息被收集利用以提高政府效率,促进市场经济发展
杨涟对于明朝的历史推动具有深刻的影响,他辅佐了两任太子顺利登基,并且和天启年间阉贼魏忠贤进行斗争,最终奉献自己宝贵的生命。他作为一个忠义之臣,在巩固明朝时局的稳定当
指出网络信息生态链效能是对网络信息生态链的运行效果及其对既定目标的实现程度的评价。网络信息生态链效能的评价是对网络信息生态链进行优化和对其效能进行提升的前提。从
对某实际工程中采用的单层斜交索网结构进行了静力及动力性能测试和分析研究。通过ANSYS有限元软件建立计算模型,分析中考虑了单层斜交索网的几何非线性及与玻璃面板的协同作
近些年来席卷全球的金融风暴导致不少金融机构的倒闭,笔者由此关注到了跨国破产领域内的跨国银行破产法律问题,并选取跨国银行破产管辖权和法律适用进行研究。全文共分为四章
1780年,为在战争时期稳定士兵的报酬,维持军队的战斗力,美国马萨诸塞州政府创新性地发明了通货膨胀指数债券,但这一债券却未起到应有的作用。本文回顾了这一债券的发明历程,
随着农行股权改革的推进和内部管理体制改革的实施以及内部机构的职能整合,银行直接与现金、账务处理相关的业务,基本都集中由会计部门管理,业务高度集中,风险也高度集中,会