面向web的企业竞争情报获取

被引量 : 0次 | 上传用户:zk0529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,越来越多的企业把信息发布在互联网上,企业竞争情报的获取也逐步由传统的方式向面向Web的获取转变。如何从Web中获取企业竞争情报已成为目前Web信息抽取和企业竞争情报研究中的热点问题。本文以Web网页为研究对象,主要探讨了利用Web信息抽取与关系抽取等技术从Web网页中采集企业竞争情报的相关问题,重点研究了基于本体的企业竞争情报获取方法,并以汽车领域网页为抽取对象,研究了<产品名,出售价格>和<产品名,上市时间>等企业竞争情报的抽取方法。在大规模网页集上的实验表明,本论文提出的基于本体的企业竞争情报抽取方法为企业竞争情报的获取提供了统一的参考模式,可以有效地抽取出Web网页中蕴含的竞争情报,具有减少后续情报分析的工作量、提高企业竞争情报生成的准确性等优点。本论文的主要贡献如下:1、提出了基于本体的企业竞争情报获取框架,采用统一的结构化方法描述网页中的企业竞争情报,从而为企业情报的获取提供了领域本体参考,通过本体的实例化即可实现企业竞争情报的构建。论文首先详细分析了引入本体作为面向Web竞争情报信息获取的数据模型的原因;然后详细描述企业竞争情报本体的构建过程。2、提出了一种基于DOM树和两层角色HMM标注的产品命名实体识别算法,实验表明该算法具有较好的识别效果。在该算法中,我们首先利用DOM树去掉HTML标记,对叶子节点内容在分词词性标注基础上引入两层角色HMM识别产品命名实体,第一层角色HMM标注品牌、型号、系列实体,第二层标注产品实体。采用Viterbi算法标注概率最大的角色序列,然后在角色序列的基础上,定义模式识别出命名实体。3、提出并实现了一种基于模式匹配的中文网页中目标实体关系实例抽取的算法,该算法具有普适性,可对不同类型实体关系做抽取,并加入模式和实体对的可信度计算,实验表明该算法对中文自由文本中的实体关系抽取具有较好的效果。在实体关系实例抽取中,我们将产品网页内容分为表格文本和自由文本。表格文本信息的处理主要采用了表格的上下位置关系。自由文本的处理采用基于模式匹配的方法,运用自举循环方法生成模式集合,并且在模式和目标实体关系实例生成过程中加入可信度计算以控制生成的模式和目标实体关系实例的质量。
其他文献
本文以中石化某采油厂为例对提高机采效率的技术进行分析,加强配套技术的应用,提高机采水平是体现一个原油生产单位管理水平和技术水平的重要标志。
耳穴按压治疗妇科病术后疼痛50例漳州市中医院(363000)朱丽清,黄映菜,周维骥笔者采用耳穴按压治疗妇科病术后疼痛50例,效果满意,介绍如下。1一般资料:本组50例,其中剖宫产36例,子宫及附件切除14例。将同
本文选用德州扒鸡为原料,分别采用固相微萃取(SPME)和加速溶剂萃取-溶剂辅助蒸发(ASE-SAFE)方法对扒鸡挥发性香气成分进行了提取,采用GC-MS和GC-O进行分析。在不同的固相微萃取实
为探讨产业结构和能源结构对河北省碳强度的贡献,采用对数平均权重Divisia分解法分别基于产业和能源构建碳强度的因素分解模型,并分别对2000—2012年河北省总体碳强度、第一
将山东半岛作为研究区域,建立人口城市化与土地城市化质量指标体系,采用均方差权值法和耦合协调模型,计算山东半岛城市群人口城市化和土地城市化质量指数及二者的耦合度和协
柔然是在我国古代北方继匈奴西迁、鲜卑南迁之后,雄霸大漠南北的强大游牧民族政权,存在了154年(402—555)。本文从政治、经济、文化三个方面对柔然与周边政权的关系做一初步
改革是一个复杂的利益关系调整过程,各个利益主体在改革发展进程中,不可避免存在各式各样的利益冲突和利益博弈,计算行为之间的利益得失和各种损耗。在这过程中,改革成本在很
现代测控技术要求仪器之间能够相容连接,顺利而准确的传递信息;并且能够与计算机相连接,组建自动测试系统。目前,广泛应用于物质磁性研究的电磁铁电源在这方面显然存在不足。
随着世界经济一体化进程的加快,贸易与环境保护的关系问题日益成为国内外学者关注和探讨的热点。改革开放以来,我国利用外资规模迅猛发展。伴随着外资的流入及其产业转移,一
轨道交通运输由于具有绿色环保、节能的优势越来越受到重视。根据国家铁路交通中长期发展纲要,列车运行速度将达到350km/h甚至更高。随着列车速度的不断提高,其动能随速度的平