一种基于文本样式的Web主题信息提取方法研究

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:fengyufengsc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
考虑Web页面表现形式对主题相关度的影响,提出了一个基于文本样式的Web主题提取算法。该算法解析Web页面中的文本样式,根据不同的文本样式来计算文本的重要度,选取重要度较高的文本作为该页面的主题。算法无须对页面进行复杂的结构分析,也避免了模板需要人工手动配置或训练的繁琐问题,具有较强的通用性。通过对十大类网站的一百个网页的测试,结果表明该算法具有较高的准确度。
其他文献
用基于属性约简的粗集理论找出条件属性的最小属性集。对属性间为不确定因果关系的模式,计算在最大熵情况下发生的概率,通过比较概率来进行模式识别,实例分析和结论部分说明这种方法是有效的。
交通部:你部《关于建立国家海上搜救部际联席会议制度的请示》(交海发[2005]176号)收悉。现批复如下:
期刊
一体化联合作战的出现必将对航材保障模式带来重大影响,有必要研究探索新的航材保障模式。建立的航材物流保障模式是将第三方物流引入部队航材保障工作中,对提高空军航材保障能
深入分析DNS域名解析导致的用户跨网访问问题,提出针对性的优化技术方案和实现方式,并对具体实施效果进行总结,为其他互联网运营商DNS优化提供参考。
针对4G特殊场景中上行能力受限的短板和痛点,提出上行增强组合解决方案。外场测试数据表明,上行平均速率达到51.7Mbit/s,增益达到534%,显著提升了上行吞吐量和频谱效率。
介绍了如何应用无反馈控制混沌技术中的系统设计法,通过恰当设计隔振系统参数以实现系统的混沌振动,进而达到降低或消除特征线谱的目的,并通过实验验证了这种方法的可行性.
目前河南联通固网关口局越来越多的老设备新业务支撑能力差,且单局向运行,存在较大风险;移网关口局为中兴软交换设备,设备先进,采用双归属配置,易于实现新业务,且安全性高。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
各省、自治区、直辖市人民政府,国务院各部委、各直属机构:煤炭是我国重要的基础能源和原料,在国民经济中具有重要的战略地位。在我国一次能源结构中,煤炭将长期是我国的主要能源
针对目前物流行业、企业信息化发展以及物流职业岗位的要求,在对高职高专院校物流人才培养进行合理定位的基础上,采用图表分析的方法,对理论知识的重点和难点进行探讨,并从课