网络学术资源主题判定技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:dreamtale07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网络的迅速发展,使网络资源成指数级增长,对各专业领域的发展也带来了巨大的影响,对于专业领域人员而言,怎样准确地从浩如烟海的网络信息资源中找到所需的专业学术资源是一件非常有意义的事情,因此判断学术资源是否属于该专业领域就十分重要了。现有的一些专业领域学术资源大都是手动人工整理出来的,存在着工作量大、维护困难、适应性差等缺点。针对以上问题,网络学术资源主题判定系统TIARI根据网络资源的特点提出了基于网页正文的主题判定方法,其基本思想是:使用基于HTML标签的网页正文信息抽取算法抽取得到网页正文,根据训练阶段得到的该专业领域主题特征词集及其权值计算主题相关度。由于大网页正文向量空间消耗资源过多,TIARI系统提出了基于网页摘要的主题判定方法予以修正,使用基于网页结构的摘要选择方法和基于句子的摘要选择方法相结合的方式得到网页的摘要信息,进而计算主题相关度。结合基于网页正文的主题判定方法和基于网页摘要的主题判定方法这两种主题判定方法的优点,TIARI系统提出了综合主题判定方法。综合主题判定方法根据专业领域网页超链接的特征和网页内超链接之间的内在联系得到一定的权值,并分析基于网页正文的主题判定方法和基于网页摘要的主题判定方法的内在联系,以此作为两者权值分配的依据,从而使得主题判定更加准确。基于Windows操作系统平台,采用Java语言实现了SemreX的TIARI系统,并且对系统进行了测试。功能测试表明:对网络学术资源的主题判定功能正常。性能测试结果表明:当阈值取0.35时,基于网页正文的主题判定、基于摘要的主题判定、综合主题判定这三种方法的准确率分别为90%、91%、93%,召回率分别为90%、91%、92.5%,F-measure分别为:90%、91%、92.75%;当阈值取0.45时,三种主题判定方法的准确率分别为95%、96%、96.5%,召回率分别为86%、89%、91%,F-measure分别为:90.28%、92.37%、93.67%。
其他文献
在货币供给内生性增强的前提下,不仅货币政策能够影响货币供给,财政支出也是影响货币供给的重要因素。首先描述了财政支出创造货币供给过程,分析中央政府、地方政府和国有企
<正> 自1985年以来,笔者应用补肾化瘀法治疗不孕症100例,疗效满意,现报告如下。一、临床资料 (一)一般资料:年龄30岁以下者86例,31~36岁者14例。不孕年限2~3年者77例,4~8年者23
周代宗法制何时形成的问题,史学界历来歧义纷纭。本文以为周代宗法制是在周灭商以后形成,它与“领主分封”互为补充,是为统治全国而采取的一项相应措施,它的形成发展是在统治
光纤陀螺为典型的光纤干涉仪,非互易误差主要是由各类寄生干涉引起,零偏误差具有明显的周期性特征。结合Allan方差分析方法,发现由寄生干涉引入的正弦噪声为其零偏误差的主要
目的由于遗传和用眼习惯等因素影响,青少年近视眼患病率呈逐渐增长趋势。有研究表明,角膜塑形镜可有效降低近视屈光度,提高裸眼视力。文中评估佩戴夜戴型角膜塑形镜(orthoker
回顾了我国技术市场20年发展里程,分析了技术市场的现状,探讨了和分析了我国技术市场的发展趋势。
贵刊于1995年第2期发表了关景芬同志的研究文章“我国城市林业持续发展研究”(以下简称“研究”),读后给我很多启示,受益匪浅。鉴于可持续发展理论尚处于不成熟阶段,许多问
我国是一个农业大国,农业的发展对于国民经济的增长具有举足轻重的作用,而农业领域的科学研究则与农业发展有着直接而密切的联系。目前,农业领域的科研人员所面临的一个困扰
知识自由是人权的一种,是人类的自由权利在图书馆领域的体现。知识自由是指公民依据宪法规定所享有的自由获取知识或信息以及自由发表言论、表达意见与观点的权利。知识自由
网络探究学习是一个在教师的组织、引导和帮助下,以学生为活动主体,在充满趣味性、生活性的情景里运用网络资源进行主动探究,获取、分析和处理信息,并形成自己的创造性的探究