基于语句相似度的网页标题抽取方法

来源 :第五届全国青年计算语言学研讨会(YWCL 2010) | 被引量 : 0次 | 上传用户:wanglaow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前网页标题的抽取方法大多利用HTML结构和标签特征生成特定规则进行抽取,但是这些方法只考虑到了HTML的统计特点,没有考虑标题与正文信息之间的关系。本文提出一种基于相似度的网页标题抽取方法,充分利用了网页标题与正文信息之间的关系,通过计算两两“单位”之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。 实验结果表明,该方法不仅对“非标准网页”的抽取达到满意的效果,而且对“标准网页”具有较高的泛化能力。
其他文献
黑龙江省文联原副主席兼《书法赏评》杂志主编。中国作家协会会员,一级作家。中国书法家协会会员,黑龙江省书法家协会顾问。著有《大自然·生活·我》、 Former chairman of
基于核函数的蛋白质关系(PPI)抽取可以捕获结构化句法信息,取得了较高的性能,但计算复杂度过高。 本文结合词汇、句法信息,重点探讨了依存信息对基于特征向量的蛋白质关系(PP
我国的风险投资业发端于1985年,历经了从无到有、从散乱无序到逐步规范的过程,已经有了较大程度的发展,但同时也应该看到,目前风险投资公司规模过小,实力较弱;资金投入不足,
鱼胆,俗称苦胆,生于鱼腹的上部。它不但味道非常苦,而且多数含有毒性,其毒素虽有药用价值,但人们往往却忽视鱼胆的危害。 据研究,鱼胆中含有胆酸、甘胆酸及胆色素和钙盐等成
多文档自动文摘能够帮助人们自动、快速地获取信息,本文实现了一个基于主题模型的中文多文档自动文摘系统,其中主题模型采用浅层狄利赫雷分配(LatentDirichlet Allocation,LDA),
会议
针对传统查询推荐方法中存在的相关性度量问题和冗余性问题,本文中提出了一种新的基于流行排序的查询推荐方法。该方法利用查询数据内在的全局流行结构来获得查询之间的相关性
地球气温曾在5500万年前极速攀升,不仅导致海平面升高、海洋酸度增大,还使得一些物种永久消亡,这种全球性变暖现象就是著名的“古新世-始新世极热事件”.不过,这种现象在科学
本文针对题录信息中的人名、地址、机构名和公司名的不同特征,分别设计了不同的翻译方法,并依靠词典和翻译规则,实现了大部分内容的翻译。对于人名翻译,本文设计了拼音转换、假名
在文本分类领域,常用的特征选择方法(如文档频率)是基于概率统计信息的。本文从一个全新的角度,即基于认知情境的语义框架的角度进行特征选择,这种方法可以较准确地抓住文本类别
连词使用范围报广,越来越受到语言学研究的重视,同时也是语言教学中的重要一环。已有的连词研究多是定性的对连词范围、功能、用法的研究和探讨。本文在国家语言资源监测与研究
会议