HITS算法在文本聚类结果特征提取中的应用

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:softguner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:   本次研究基于HITS(Hypertext-Induced Topic Search)算法,对高被引论文进行同被引聚类分析,提取出聚类结果中每一类的特征词,客观的描述聚类分析结果。开发出能够自动提取关键词的程序,排除分析者的阅读能力、理解能力和归纳能力等主观性,不受所研究的文本量大小的限制,使科研人员更准确更容易的分析聚类结果,为进一步做研究服务。   材料与方法:   从SCI-CDROM检索1992-2002年与外伤性脊髓损伤治疗(treatment oftraumatic spinal cord injury)有关的文献,并套录每篇文献的引文。采用书目信息共现挖掘系统(Bibliographic Item Co-Occurrence Matrix Builder, BICOMB)处理引文数据,截取被引次数超过某一阈值的论文,处理得到这些论文的同被引矩阵。导入到SPSS11.5 for Windows进行聚类分析。通过PUBMED分别检索每一类中文献的摘要信息。对摘要中的词汇进行预处理,截词根,去停词。依据TFIDF算法为每个词赋予其在每一类论文集的权重。基于HITS算法提取关键词。然后将算法提取的关键词和PUBMED标引的主题词分别与对照论文相比较。   结果:   检索得到219条文献,5320篇引文。得到70篇高频引文,分成四类。通过java程序,JDK版本是JDK1.6_14,web框架是struts1.2开发出关键词提取程序。对于每一类,算法提取的关键词和PUBMED标引的主题词的准确率分别为:30%,40%;50%,50%;10%,20%;20%,0。对于算法提取出的关键词,每一类中的词与其它类中的词均不相同。这说明,HITS算法提取出的词能够区分各类别的特点。而对于PUBMED标引的关键词,除了第三类能够代表该类以外,另外三类都不能与其它两类更好的区分开。   结论:   HITS算法用于聚类结果的特征提取是可以实现的,并且能有效的发现关键词,提取出聚类结果中每一类的特征词,客观的描述聚类分析结果。使科研人员更准确更容易的分析聚类结果,为进一步做研究服务。   关键词 HITS算法;关键词提取;同被引聚类分析;聚类树图
其他文献
随着信息时代的到来,我国的民主与法治建设日益完善,公民个体权利意识发生了质的飞跃,对公民知情权的诉求更加强烈。政府是信息的最大拥有者,政府信息公开成为必然的发展趋势
图书馆通常注重制定馆藏计划,但忽略战略远景规划;即便制定了规划计划,总得不到贯彻执行.有的图书馆并没有从满足用户需求、确保完成主管单位(母机构)使命的角度出发来确立起
学位
随着社会的发展,社会文明程度不断提高,社会信用已经涉及到社会不同类型的活动中,各行各业都积极地推动信用活动。对于企业来讲,信用是一种资源,是企业的生命线。企业信用档案是记
十九大报告中提出“美丽中国”这一关键词,“美丽中国”是党和人民对我国生态文明建设的强烈号召.对于如何解决生态环境恶化问题,有从经济层面、政治层面、科学技术层面、道
随着基于位置的服务(LBS)越来越深入人们的生活,个人的隐私信息安全问题也日益严峻,比如苹果被曝擅自利用全球定位系统(GPS)定位收集用户位置数据事件,以及用户的个人隐私信
随着信息时代的到来,新媒体迅速渗透到社会的各行各业,发挥着不同的作用.由于新媒体的渗透,我国职业院校思政工作的教育教学模式也发生了变化,新媒体的介入和渗透既对职业院
《中华人民共和国精神卫生法》指出今后高校心理健康教育的重点在于“医教结合”.本文针对工作中一例有遗传病史学生突发情绪障碍的紧急干预与后续的心理疏导过程,具体问题具
1271年,马可·波罗乘船离开威尼斯到达地中海东岸,然后向东,时而骑马,时而骑骆驼,穿越绿洲和戈壁,翻山越岭进入中国.这条横穿亚洲大陆的商路在马可·波罗来到中国之前已经存
期刊
近年来,科学技术飞速发展,信息数量也在激增,人们想在铺天盖地的网络数据里获取对自己有用的信息往往不是短时间可以做到的。然而,提供信息是图书馆的重要职能,如何能快速及时地将