基于混合条件模型的Web信息抽取

来源 :郑州大学学报:理学版 | 被引量 : 0次 | 上传用户:edison_young
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.
其他文献
半监督支持向量机同支持向量机一样,已经在很多分类、归类问题上取得较好的效果,但是支持向量机需要求解二次凸规划,因此在处理大规模数据时会消耗大量存储空间和计算时间,特别是
采用第一原理研究了Sn对O在ZnO(0001)极性面吸附的影响.计算表明,ZnO(0001)极性面上单层Sn覆盖层能提高O原子在此面上的吸附能.清洁ZnO(0001)表面上的Sn吸附层使得O吸附层更
利用Gauss和的定义及其解析方法研究了Dirichlet L-函数的k次加权均值分布,得到一个有趣的加权均值分布的渐近公式.
首先讨论了剩余类环上多输出m值逻辑函数的相关函数的若干性质,然后给出了多输出m值逻辑函数的相关函数的概率表示式,最后得到了多输出m值逻辑函数的广义一阶Chrestenson谱与自
鉴于微载荷含油轴承性能研究中摩擦稳定性的重要性,对含油轴承摩擦学进行了混沌分析,得到了判别稳定性的条件.条件分为:无阻尼、无驱动情况下系统处于完全黏着弹性状态;阻尼加
<正>~~
期刊
面向方面编程是在更高的抽象层次上以模块化横切关注点为目标的新型程序设计范型.通过分离关注点,AOP能够帮助程序员把程序分割为独立的模块,从而避免其在功能上造成重复.通过对
描述了一个基于Web的监督自适应话题追踪系统.在IBM的对称Okapi公式算法基础上,通过结合监督自适应机制,对报道进行评分.系统通过调整关键字权重和增量学习的方式,对话题追踪任务
免疫响应系统无病平衡点和正平衡点的全局稳定性是一个比较困难的问题。通过构造合适的Lyapuov函数,该系统各个平衡点的全局稳定性条件得以推导。结果表明,该系统当只有一个平
为了克服K-means算法受初始点影响大、结果稳定性差的不足,提出了一种新的K-means优化聚类算法.介绍了复合形法的基本原理并将其做了一定修改以适用于K-means优化聚类,推导了一