基于通配符节点话题权重的Web新闻抽取方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:logan_lxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有Web新闻内容自动抽取方法多数未考虑文本中的话题特征,容易将样式排版与正文相似的噪音文本识别为正文内容。为此,提出基于通配符节点话题权重的抽取方法。将HTML文档解析成DOM树后,匹配DOM树对应的通配符树,并计算每个通配符中的话题权重,将高权重话题的通配符节点所覆盖的文本节点识别为正文节点。实验结果表明,与传统新闻抽取方法相比,该方法能降低Web新闻内容边缘噪音文本的错误识别率,抽取的新闻内容准确率更高。
其他文献
本文针对最高人民法院《关于审理票据纠纷案件若干问题的规定》第 6 9条的规定 ,分析了该司法解释界定票据付款中重大过失标准的不合理性和副作用 ,对票据付款重大过失的构成
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
自金融发展理论诞生以来,国内外学者的研究重点一直聚焦在金融发展和经济发展之间的关系上,对金融发展与国际贸易之间相关性的研究却较少。事实上,在经济全球化的背景下,金融
<正>"迹"是一种活动模式或内在逻辑的外化。南京城墙博物馆在设计之初以"迹"作为出发点,试图建立起博物馆与参观者在活动模式上的关联,以及与场所在逻辑上的契合。南京城墙博
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
利用加报水文站来水量资料计算红岭水利枢纽工程来水量,分析大边河流域生产、生活和生态环境用水量,预测了设计水平年受水区域需水量及缺水量,通过红岭水利枢纽长系列调节计
在现代的企业管理中,人才是企业宝贵的财富,企业管理者必须重视员工的工作满意度。员工满意度高就会对工作充满热情,其工作效率以及为企业创造的经济效益也会随之提高,这样才
为解决地面人员难以到达的特殊区域大比例尺磁测数据获取问题,本文提出一种基于三轴磁通门传感器,采用旋翼无人机进行航空磁测的方法.项目组研制适合旋翼无人机搭载的航磁数
针对虚拟士兵作战仿真路径规划中存在不连续路径的问题,提出一种改进的烟花算法。采用可视图法进行地图建模,把路径规划转变为寻求最佳路径点的组合。通过结合士兵视觉模型实
考虑到在基于分解的多目标进化算法(MOEA/D)中,邻域大小与变异算子类型对算法进化过程中的探索模式有不同的影响,提出优化的MOEA/D算法。4种不同大小的邻域范围和4个特性不同的