论文部分内容阅读
互联网络的迅速发展,使网络资源成指数级增长,对各专业领域的发展也带来了巨大的影响,对于专业领域人员而言,怎样准确地从浩如烟海的网络信息资源中找到所需的专业学术资源是一件非常有意义的事情,因此判断学术资源是否属于该专业领域就十分重要了。现有的一些专业领域学术资源大都是手动人工整理出来的,存在着工作量大、维护困难、适应性差等缺点。针对以上问题,网络学术资源主题判定系统TIARI根据网络资源的特点提出了基于网页正文的主题判定方法,其基本思想是:使用基于HTML标签的网页正文信息抽取算法抽取得到网页正文,根据训练阶段得到的该专业领域主题特征词集及其权值计算主题相关度。由于大网页正文向量空间消耗资源过多,TIARI系统提出了基于网页摘要的主题判定方法予以修正,使用基于网页结构的摘要选择方法和基于句子的摘要选择方法相结合的方式得到网页的摘要信息,进而计算主题相关度。结合基于网页正文的主题判定方法和基于网页摘要的主题判定方法这两种主题判定方法的优点,TIARI系统提出了综合主题判定方法。综合主题判定方法根据专业领域网页超链接的特征和网页内超链接之间的内在联系得到一定的权值,并分析基于网页正文的主题判定方法和基于网页摘要的主题判定方法的内在联系,以此作为两者权值分配的依据,从而使得主题判定更加准确。基于Windows操作系统平台,采用Java语言实现了SemreX的TIARI系统,并且对系统进行了测试。功能测试表明:对网络学术资源的主题判定功能正常。性能测试结果表明:当阈值取0.35时,基于网页正文的主题判定、基于摘要的主题判定、综合主题判定这三种方法的准确率分别为90%、91%、93%,召回率分别为90%、91%、92.5%,F-measure分别为:90%、91%、92.75%;当阈值取0.45时,三种主题判定方法的准确率分别为95%、96%、96.5%,召回率分别为86%、89%、91%,F-measure分别为:90.28%、92.37%、93.67%。