【摘 要】
:
目前网页标题的抽取方法大多结合HTML结构和标签特征进行抽取,但是这些方法并没有考虑标题与正文信息之间内容上的联系。该文提出一种基于相似度的网页标题抽取方法,该方法利
论文部分内容阅读
目前网页标题的抽取方法大多结合HTML结构和标签特征进行抽取,但是这些方法并没有考虑标题与正文信息之间内容上的联系。该文提出一种基于相似度的网页标题抽取方法,该方法利用网页标题与正文信息之间的关系,通过计算语言"单位"之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。实验结果表明,该方法不仅对"非标准网页"的抽取达到满意的效果,而且对"标准网页"具有较高的泛化能力。
其他文献
该文基于朴素贝叶斯分类器时朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法时朝鲜语文本进行特征选择,并使用类TF—IDF估算方法计算权重;其次,构
目的:确立《黄帝内经》脾藏象理论相关术语的语义类型,为中医药语义类型研究提供思路与方法。方法:基于中医术语学研究方法,依托中医基础理论,经文献梳理、提取、规范、分类
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自
共轨接力移行机是指在同一个移行轨道内包含2个或多个移行机,在移行的某一个或几个位置增加载体举升装置,此位置作为其中的2个移行机的共用位置,一个移行机移到此位置,举升装