基于概念格的多文本知识源挖掘

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:wmg0632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中,90%的知识来源于文本,从文本知识源中获取专业知识是一种重要的途径。但不同的文本对对象的描述往往有所不同,为了获取完备的知识,需要从多种文本知识源中挖掘。文本挖掘工具目前有两大主流:商业文本挖掘工具与开源文本挖掘工具。商业文本挖掘工具适用范围比较广,受限条件少,但因其高昂的价格令不少中小企业望而却步。开源文本挖掘工具种类多样,然而相当一部分工具不具兼容性,只适用于特定的场景,在Weak、ROST CM、LIBSVM、Ling Pipe四款开源工具中只有Weak带有关联规则的算法实现。概念格是由德国数学家R.Wille教授于1982年首次提出,是数据分析与规则提取的一种有效工具。概念格描述了对象和属性之间的关系,概念格的节点是一个对象/属性序对,称为(形式)概念,由两部分组成:外延和内涵。近年来,概念格已被成功地应用于各个领域。本人基于概念格主要做了如下工作:(1)分析和总结了文本中知识的不一致性类型,并提出了基于框架表示法的知识不一致性检测及修正算法,实验表明所提出的不一致性处理方法是可行和有效的。为下一步的知识服务奠定了基础。(2)提出一种基于属性分析的关联规则挖掘方法,以减少关联规则的数量。主要有以下三步:首先,该方法从属性的角度分析其取值域中存在层次结构的特点,然后对属性值进行模糊聚类以控制概念的数量和提高概念的质量。最后进行了研究实验,验证了方法的可行性,并获取了有意义的知识。(3)区分了文本中的多值知识,并引入模式结构,使多值文本知识更加有效的转化为单值文本知识且使可视化效果更好,并给出了多值文本知识转化为单值文本知识的具体步骤,并用实例对这一过程加以描述。
其他文献
随着计算机应用技术的不断发展,传统的采用鼠标、键盘或触摸屏幕作为交互手段的人机交互技术已不能完全满足人们当前的需求,而以自然语言、手势语言和面部表情语言为代表的多
无线传感器网络作为一种新的信息获取方式和处理模式,目前己经逐渐成为国内外学者研究的热点。无线传感器网络包含成百上千的传感器节点,每一个节点有感知环境、执行简单的计算
聚己内酯(PCL)是由ε-己内酯开环聚合制得的热塑性聚酯,由于PCL的熔点较低,热稳定性和水解稳定性优良,与多种聚合物的相容性很好等诸多优点,与其他脂肪族聚酯相比有着广阔的
随着网络的发展,在线社交网络已经成为人们相互联络,发表观点,及分享消息的主要途径。比如Facebook、Flickr、人人网、开心网等。通常社交网络中的用户会提供一些个人信息如:
拓扑控制是无线传感器网络的基础问题,拓扑结构的好坏,直接影响无线传感器网络的网络性能。由于传感器节点一般由电池供电,节点能量、计算、通信等资源十分有限,而无线传感器
在21世纪,互联网信息量巨大,同时以惊人的速度增长,而现有的搜索引擎无法对巨量的信息形成有效检索。形成这种局面的原因主要有以下两方面:一是用户需要特定的信息资源,而信
在机器学习和自然语言处理领域中,语义模型(Topic Models)是一类基于统计理论的概率模型,它一般通过构建出“词汇—主题—文档”来发现语料库(文档集合)中的潜在的主题(语义)
随着物联网技术的发展,在一个分布有大量6LoWPAN传感器节点的监测区域中,通过一个功能强大的边界路由器实现域内传感器节点接入IPv6网络,并与IP网络的相互通信,是实现物联网
当今社会互联网日益普及,近几年来涌现出了大量社交网站,这使得人们能够更加方便的利用网络交换信息实现自己的个人发展。如何将网站服务器中存储的大量用户数据构造成一个社
传统的掌纹识别主要是基于掌纹二维图像,从图像中提取掌纹纹理信息作为特征来进行身份识别,然而二维掌纹识别存在以下缺陷:受光照影响严重;手掌颜色变化或污渍会影响识别精度