论文部分内容阅读
微博作为一种新兴的Web2.0媒体,使得海量的用户参与到信息的制造、传播和消费过程中。随着微博等在线社交平台日益流行,大量用户持续活跃,在线社交网络积累了大量用户产生的数据。如何从这些庞大的数据中查询到满足用户需求的信息是微博检索亟待解决的问题。尽管搜索引擎在过去几年中得到了很大发展,但信息检索所依赖的查询处理技术仍然采用基于关键词的机械式符号匹配方式,查询结果很难满足用户的需求。查询扩展则较好地解决了这个问题。针对上述问题,本文完成的主要工作如下:(1)提出了社交网络安全领域术语识别与抽取方法,对爬取的微博数据进行术语识别和抽取。利用条件随机场模型的术语识别方法,结合主动学习策略,抽取了500余条安全领域术语。随着主动学习选择的训练样本量逐渐增多,模型的性能也随之提高。引入主动学习策略后,在相应训练集上的准确率数值以及随训练集增长准确率提高的幅度与非主动学习策略相比较都有显著增长,达到了较高的术语识别效率。(2)提出了国民安全威胁知识库的建立与扩展方法,设计了安全领域本体构建流程,采用Protege 5.1开发工具,构建出安全领域本体。结合基于词间语义关联性的本体扩展方法,按照语义关联性规则,对构建的安全领域本体进行了扩展,扩展后的本体包含了两个大类、六个子类以及25个小类及若干实例,包括了自然灾害、公共安全等方面的一些安全领域事件。(3)提出了基于本体和局部查询反馈的微博查询扩展(OFQE)算法以及基于本体扩展和博尔达计数排名的微博查询扩展(OBQE)算法,并将其应用于社交网络国民安全威胁大数据搜索。以微博短文本为研究对象,结合本体语义扩展和局部查询反馈,通过构建的安全领域本体对查询进行了语义扩展,并根据查询的局部反馈结果修正查询扩展词,用以进行二次查询,通过博尔达计数排名对查询结果进行优化重排,提高了微博检索性能。(4)实现了基于国民安全威胁知识库的社交网络大数据搜索系统。系统具有信息抽取、本体扩展、数据搜索等功能,并对整个系统进行了测试,验证了系统的有效性。本文从安全领域本体知识库的构建出发,进行了基于国民安全威胁知识库的社交网络搜索研究,旨在通过安全领域本体知识库的建立,结合微博查询扩展技术和博尔达计数排名法,为在线社交网络精准搜索提供服务,帮助人们从社交网络中获取更多有价值的信息,实现满足用户个性化需求的搜索。