面向互联网的中文有意义串挖掘

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:fenderchu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展和信息传播手段的飞速进步,人类已经进入一个信息爆炸的时代.而面对日益增长的网络信息,如何高效快捷的获取有用信息逐渐成为研究的热点和难点.本文将从实际需求出发,重点研究面向海量网络文本的中文有意义串挖掘.该技术能够直接应用到信息检索,舆情发现,信息抽取,机器翻译,词典编撰,中文分词等领域. 本文在介绍未登录词和新词范围的基础上,阐述了有意义串的概念.有意义串是指在真实语言环境中灵活使用而且包含具体语义的字符串,在语义上、统计上、结构上和语用上分别满足一定的性质. 接着,提出了一种上下文邻接分析和语言模型分析相结合的有意义串提取算法.该算法通过重复串发现得到候选串,计算邻接特征量来衡量候选串是否满足语用多样性,采用熟语料上训练好的双字耦合度和单字位置成词概率来判断候选串的语义完整性.然后设计了一系列不同的实验对比分析提取过程中各因素对结果的影响,同时验证了算法的有效性.在4783张网页的小规模语料上准确率和召回率都分别达到78.55﹪和79.04﹪,在470MB的大规模语料实验结果中P@N(N取2000)超过95﹪. 然后,本文对实验产生的有意义串进行了语言学分析.统计分析有意义串在长度、词性以及组合方式方面的分布规律;分别将文档和邻接词作为特征对有意义串进行聚类,得到主题相关和语境相似的串集合;针对命名实体和复合串的特点,分别提出了基于模板的命名实体标注方法和基于规则的复合串词类归并方法. 最后,在以上技术基础上,开发出面向大规模网页语料的有意义串挖掘系统MeanSMiner,能够处理约30GB的网页语料.
其他文献
随着Internet技术和网络业务的飞速发展,用户对网络资源的需求空前增长,网络也变得越来越复杂。越来越多的网络应用程序需要了解网络延迟、带宽、吞吐率等网络性能参数,以支持不
无线个域网(WPAN)定位于短距离无线通信应用,其可以使用的通信协议有多种,分别应用在不同的场合。IEEE802.15.4协议是无线个域网中使用的一种标准,自推出以来,它就被广泛认为
OGNL是一种功能强大的对象图形导航语言,通过它简单一致的表达式语法,可以存取Java对象的属性,调用对象的方法,遍历对象的结构,实现值类型的自动转化。现已被广泛应用到各类Java应
软件体系结构(software architecture)作为软件系统的高层抽象,对于控制软件复杂性、提高软件系统质量、支持软件开发和复用起到关键作用。软件体系结构设计需要跨越从需求到实
学位
IPv6将是下一代互联网的核心技术,IPv6路由器的研究与应用水平将决定IPv6网络发展的进程。目前IPv6路由器尚未开始大规模商用,但是很多路由器厂商都已经开始研发支持IPv6功能的
学位
本文的研究主题是利用标准CMOS数字工艺,在混合信号系统级芯片(SoC)环境中,研究用于高速信号传输的时钟生成和恢复技术。随着半导体工艺的不断进步,单个芯片上集成的晶体管数目
近年来,在移动增值业务得到大力发展的同时,语音增值业务也逐渐成为移动运营商和SP新的业务增长点。其中移动IVR业务是语音增值业务中备受瞩目和极具发展前景的业务形式。中
目前,中国国土航空物探遥感中心(简称“航遥中心”)合同管理主要使用Excel和Access单机版数据库,以手工操作和人为方式管理。本课题是航遥中心信息化项目的一部分,从角色控制
学位
随着经济全球一体化进程的加快,企业对能够快速响应市场需求的大批量定制技术越来越重视。变型设计方法替代了传统的设计方法,可以快速有效的对产品进行设计,成为了大批量定
信息共享,是信息化建设的重要目标之一,而多源异构空间数据的整合建库是实现信息共享的重要基础。为了能有效地控制数据库建库成果的质量,解决由于数据的异构带来的数据共享问题
学位