基于向量空间模型的文本相似度计算方法

来源 :科技广场 | 被引量 : 0次 | 上传用户:hitlic2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。
其他文献
【正】 七月一日,国家出版事业管理局副局长许力以同志在旅游出版工作座谈会上做小结。他说,我们这个会议有两个目的:一个目的是确定我们旅游出版工作的方针、任务;第二个目
目前我国高校正在积极开展双语教学,本文基于华南师范大学中文系“英美名诗欣赏”双语教学的实践,从教学目标、教学材料、教学内容、教学模式、教学评价和教学效果等方面对双
健全科学规范的人力资本管理体制和与市场经济相配套的运行机制,营造一个开放、公平的良好环境,为人力资本的积累提供坚实基础和重要保证,是当前我国参与国际竞争,促进经济发展面
【正】 唐朝大诗人自居易,少年时代勤攻经史,成名之后,读书写作更是孜孜不倦,五十岁时,目力极度衰退,他在《自问》一诗中诉说道:“黑花满眼丝满头,早衰因病病因愁,宦途气味已
针对目前中职学校计算机专业教学的阵级现状,从四个方面对该专业的教改提出探讨,对学生从“授之次鱼”转变为“授之次渔”。
【正】 按照我国现行的制度,新华书店的发行所(或省级发货店)包销出版社的图书,一般按书籍定价的70%付款,其余的30%是发行方面的进销差价,通常都把它叫做发行折扣。在每本书的
【正】 为适应研究中国现代思想史的需要,人民出版社委托中共北京市委党校编辑的《李大钊文集》目前已进入编集的阶段,预计今年春季可全部交稿。《文集》坚持历史唯物主义的
本文通过自己多年教学经验总结及对我省体育课堂教学现状的了解,运用访谈,文献资料等方法,在对本省体育课堂教学的社会背景和基本理念分析的基础上,阐述了如何构建和谐体育课
目前,管理会计在我国医院财务管理中没有得到应有的重视,许多医院对管理会计的内容和其对医院财务管理的作用知之甚少。在我国正在推行医疗卫生制度改革的背景下,加强管理会计在