基于潜在语义分析的专利文献分析与搜索技术的研究

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:QHP925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文献包含重要的研究成果,内容广泛新颖,技术细节描述详细,是世界上最新技术信息的重要来源。专利文献的有效分析对提高企业市场竞争力至关重要。本文在分析国内外现有专利分析技术的基础上,研究如何使用文本挖掘技术对中文专利文献进行分析,采用潜在语义分析和SOM网络相结合的方法对专利进行聚类,并开发相应的专利搜索软件平台。目前还没有公开的中文专利文本语料库,本文介绍了从专利网站上自动下载专利文献全文的程序设计流程,并通过文本预处理建立语料库。专利文献晦涩难懂,其中还参杂了不少专业词汇术语,由于专利文献的特殊性,传统的中文分词技术作用于专利文献结果一般,因此本文设计了新的算法对专利新词进行识别,完善补充分词结果。文本聚类有助于专利分析人员更好地分析专利文献,传统的聚类方法只能应用维数较低的对象,面对维数高达上千维的专利文本,聚类方法无法获得良好的结果。文本采用了潜在语义分析的方法对专利文本进行降维,可以达到在维数降低的同时也保证了原本的语义空间结构的效果。最后对专利文本使用SOM网络进行聚类,实验结果表明降维后的文本在聚类时间上的开销小于未降维的文本,并且聚类结果良好。常规的专利检索只能针对专利摘要进行关键字检索而无法对专利全文进行检索,摘要字数有限并不能完全代替全文的内容。本文基于Lucene开发了专利全文检索系统,采用倒排索引结构对专利全文进行索引,加快了检索速度。根据检索词查询相关专利,系统能够按照查询内容与检索结果文档的相关度对结果进行排序,相关度高的出现在前面,可以有效减少用户浏览专利文档的数量,提高工作效率。
其他文献
无线传感器网络(Wireless Sensor Networks, WSN)在军事、农业、环境监测、医疗卫生、工业、智能交通、建筑物监测、空间探索等领域有着广阔的应用前景和巨大的应用价值,被认
时序逻辑在程序验证和人工智能的规划领域都起着至关重要的作用。作为最具代表性的时序逻辑之一,线性时序逻辑(Linear Temporal Logic,LTL)已被广泛应用于反应系统和并发系统的
经过二十多年的发展,多目标遗传算法由出现逐渐走向成熟。作为遗传算法的一个重要分支,它不仅在学术上得到广泛的研究,在工程应用领域也受到日益重视。它继承了遗传算法不需要搜
ICMN(Intermittently Connected Mobile Network)泛指端节点间的链路连接时断时续的网络。随着自组织概念的渗入,ICMN主要涉及具有自主组网能力的无线网络。这些网络中,节点
基于内容的视频拷贝检测(Content-Based Video Copy Detection),简称视频拷贝检测(CBCD),是数字视频版权保护与内容管理的重要技术手段之一,逐渐引起国内外学者的关注。本文
随着计算机、网络、通信等多种技术的迅速发展,网络视频监控系统得到越来越广泛的应用,目前已渗透到教育、政府、娱乐场所、医院、酒店、运动场馆、城市治安等多种领域。但现
我国是皮革工业大国,但是目前对皮革的分类仍然主要依靠熟练工人的目视辨别,必然很难保证产品的一致性和稳定性。随着电子技术和计算机技术的发展,采用数字图像处理技术将皮
基于信息技术电子通信网络的高速发展,使得通过各种通信媒体和网络来实现远程教育具备了可能性。远程教育平台以学生为中心,向学生提供专业知识、专业素养等全方位的支持。通过
信息抽取作为在海量数据中,快速有效的寻找有价值信息的重要手段,是自然语言处理领域的热点课题。国外在上世纪末开始了相关方面的研究,发展到现在已经取得了很多成果。由于
离群检测是数据挖掘的重要任务之一,它的主要目标是从数据集中发现与大部分其他数据点有显著区别的样本。这些数据点往往蕴含着重要的信息,有很重要的使用价值和广阔的应用前