【摘 要】
:
近年来,随着社会的不断发展和科学技术的不断进步,信息飞速增长。信息爆炸带来了电子文档的快增长,文档的检索、分类和管理变得越来越困难。传统的文本处理技术使用两个文档
论文部分内容阅读
近年来,随着社会的不断发展和科学技术的不断进步,信息飞速增长。信息爆炸带来了电子文档的快增长,文档的检索、分类和管理变得越来越困难。传统的文本处理技术使用两个文档的相似性去代替两个文档的主题相关性,但是很多情况下相似未必相关,相关也不一定相似。本文研究的文档主题相关性计算技术正是实现文档关系的自动判别的关键技术。主题相关性计算,是指通过某种手段去计算给定的两个文档在内容主题上的相关程度。大量的研究表明,一个包含大量实体及其领域背景的大规模汉语领域知识库对许多技术包括相关性计算的改善都具有很重要的价值。词与词之间的关系分析是获取领域知识的重要途径。本文首先研究的主谓关系获取技术对获取领域知识是很有帮助的。本文定义的主谓关系就是指在一个名词作为一个句子主语的前提下,另外一个动词可以同时作为这个句子的谓语动词。本文在传统的统计搭配分析技术的基础上引入了启发性规则和句法信息分析主谓关系。主题相关性计算技术是本文研究的主要内容。本文首先把向量空间模型(VSM)应用到主题相关性计算中,使用余弦相似度计算的方法进行相关性计算。针对向量空间模型本身存在重要特征常被大量判别能力较弱的特征湮没的问题,本文使用基于tf idf阈值的关键词抽取算法对文档进行关键词抽取。为了解决不同特征之间存在的潜在匹配关系,本文引入同义词词林,计算向量的语义相似度和改进的语义相似度。最后本文引入了领域知识库,通过计算文本之间的领域分布特性,改善主题相关性计算技术。本文把主题相关性计算技术应用到广告推荐系统中进行改进对比实验,实验表明,使用领域知识库的相关性计算方法取得了显著效果。
其他文献
纹理分类是模式识别领域中的一个重要的分支,它的目的是识别出具有不同纹理特征的物体的各种表现形式。纹理分类在计算机视觉、图像处理及计算机图形学领域和工程技术方面有
数字家庭这个概念近几年在消费电子领域正在升温,数字家庭生活所引导的新兴行业及消费理念,已经成为以家电行业为代表的相关企业的战略重点。与数字家庭发展相辅相成、密切相
随着现代对互联网需求的日益增长,网络与信息安全逐渐成为Internet及各项网络服务和应用的进一步发展需要解决的关键问题。继防火墙后,入侵检测系统(IDS)近年来得到了迅速的
随着计算机网络对资源共享的有效实现,网络信息安全问题也变得尤为突出。为了保证信息的保密性、完整性、可用性,我们必须对网络认证技术更加重视。认证技术用于防止对系统进
20世纪后半叶,数值计算方法使各个学科获益匪浅。作为海洋科学基础的物理海洋学也不例外,在第一台电子计算机问世不久,海洋数值模拟的工作就开始了,大洋环流、潮波数值模式及环境
由3GPP(第三代合作伙伴计划)组织制定的3G网络核心技术标准IMS(IP多媒体子系统)被认为是实现未来FMC(固定/移动网络融合)的关键技术。对于网络融合的实现,网络间信令的互通是
目前,随着网络技术的迅速发展,特别是随着网络上发布的Web服务数量的急剧增加,面对数量庞大的服务群,如何从海量的Web服务中快速、准确、高效发现满足用户需求的服务已成为亟
随着科技的发展,手机已经成为人们日常生活中必不可少的工具之一,手机的功能和性能也在日益提高,个性化的手机系统软件日益增多。传统的手机软件开发周期较长,开发难度大,可移植性
阈下信道是一种特殊的、有着广阔应用前景的现代信息隐藏技术。由于其隐蔽性好、安全性高等特点近年来引起了国内外学术界和相关部门的重视。阈下信道是在基于公钥密码技术的
随着计算机技术和生物医学的飞速发展,人类对于基因表达和遗传信息的传递有了更高的认识,越来越多的学者开始关注DNA序列中控制基因表达的植入位点发现问题的研究。本文对DNA