论文部分内容阅读
随着互联网的高速发展,越来越多的企业把信息发布在互联网上,企业竞争情报的获取也逐步由传统的方式向面向Web的获取转变。如何从Web中获取企业竞争情报已成为目前Web信息抽取和企业竞争情报研究中的热点问题。本文以Web网页为研究对象,主要探讨了利用Web信息抽取与关系抽取等技术从Web网页中采集企业竞争情报的相关问题,重点研究了基于本体的企业竞争情报获取方法,并以汽车领域网页为抽取对象,研究了<产品名,出售价格>和<产品名,上市时间>等企业竞争情报的抽取方法。在大规模网页集上的实验表明,本论文提出的基于本体的企业竞争情报抽取方法为企业竞争情报的获取提供了统一的参考模式,可以有效地抽取出Web网页中蕴含的竞争情报,具有减少后续情报分析的工作量、提高企业竞争情报生成的准确性等优点。本论文的主要贡献如下:1、提出了基于本体的企业竞争情报获取框架,采用统一的结构化方法描述网页中的企业竞争情报,从而为企业情报的获取提供了领域本体参考,通过本体的实例化即可实现企业竞争情报的构建。论文首先详细分析了引入本体作为面向Web竞争情报信息获取的数据模型的原因;然后详细描述企业竞争情报本体的构建过程。2、提出了一种基于DOM树和两层角色HMM标注的产品命名实体识别算法,实验表明该算法具有较好的识别效果。在该算法中,我们首先利用DOM树去掉HTML标记,对叶子节点内容在分词词性标注基础上引入两层角色HMM识别产品命名实体,第一层角色HMM标注品牌、型号、系列实体,第二层标注产品实体。采用Viterbi算法标注概率最大的角色序列,然后在角色序列的基础上,定义模式识别出命名实体。3、提出并实现了一种基于模式匹配的中文网页中目标实体关系实例抽取的算法,该算法具有普适性,可对不同类型实体关系做抽取,并加入模式和实体对的可信度计算,实验表明该算法对中文自由文本中的实体关系抽取具有较好的效果。在实体关系实例抽取中,我们将产品网页内容分为表格文本和自由文本。表格文本信息的处理主要采用了表格的上下位置关系。自由文本的处理采用基于模式匹配的方法,运用自举循环方法生成模式集合,并且在模式和目标实体关系实例生成过程中加入可信度计算以控制生成的模式和目标实体关系实例的质量。