网络环境下的领域知识挖掘

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:hahaho520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前海量异质、快速增长的网络资源带来了“数据过剩”和“知识贫乏”的矛盾,增大了人们及时获取有用知识的难度。本文以网络环境下的异质数据源为研究对象,探寻各种数据中知识发现的可行性,按照“模型提出—算法实现—数据验证”的思路,研究如何有效地利用和挖掘网络数据资源,获取潜在的、有价值的领域知识。1.提出了网络环境下的领域知识挖掘模型。该模型是一个包括数据层、知识层和应用层的三层模型,指导从异构数据源中挖掘多维度知识以提供多种知识应用。基于该模型,论文以网络科技文献、博客日志和社会化标注为研究对象,进行了三种具体的领域知识挖掘实践研究。2.提出了一种新的概率主题模型:Topic-Author模型。该模型对科技文献的文本信息和作者信息进行联合建模,深入对文献的分析。基于此模型构建了一个多维度文献知识挖掘框架,进行概念挖掘、专家发现、文献推荐,研究趋势分析、主题关系挖掘等领域知识的发现和应用。3.提出了一个Blog知识挖掘框架,进行主题挖掘、观点分析和扩散研究。利用文本聚类和主题模型两种文本分析方法,挖掘Blog日志内容中的潜在概念,并对其进行观点分析。研究了社会化网络的扩散模型,总结了实现扩散最大化的方法,提出了一种改进的门槛扩散模型。4.分析了基于社会化标注的集体智慧和Web环境下的知识组织分类法,进行了社会化标注的语义知识挖掘,提出了一种轻量级本体构建方法。该方法依据所提出的基于加权网络分割的社会化标签聚类算法,进行语义聚类和语义分层。研究结果表明,论文所提出的领域知识挖掘方法,能够发现大量有价值的、潜在的多维度知识,为用户提供多种知识应用服务,支持信息时代的知识获取与学习。
其他文献
芯片激光打标机是利用激光在芯片的塑封体上刻印标记,以标明该芯片的型号、厂商、生产日期等信息的自动化设备,该设备主要包括芯片料条上、下料机构、传输机构、定位机构、激
针对竹芋对环境因子敏感、栽培技术要求高,易出现叶片生理病害及叶斑病、根茎腐病等病害的情况,介绍了竹芋小苗、大苗期盆栽不同生长时期栽培管理的要点。针对盆花养护与栽培
目的比较月经周期正常女性精神分裂症患者治疗前与健康对照组及治疗前、后血清睾酮(TSTO)、促卵泡成熟激素(FSH)、垂体泌乳素(PRL)、孕酮(PRGE)、黄体生成素(LH)及雌二醇(E26
从“女性主义艺术”这个名词的出现直至今日,人们对于女性主义艺术的关注从来都没有停止过。是女性艺术,还是女性主义艺术,关于两者区别与联系的争论也一直在进行中,众家各抒
改革开放至今,我国的外汇储备总体上呈现增长趋势,特别是1994年实行外汇管理体制改革以后,我国的外汇储备量持续快速增长,截止2009年底,我国外汇储备规模由1994年的516.2亿美
臭氧用于慢性骨关节炎是目前医学界推广的治疗方法之一,合适浓度的臭氧利用其强氧化特点使慢性骨关节炎患者疼痛减轻,延缓软骨及骨质破坏。本研究将从臭氧对软骨及炎性因子的
中国商业大片在市场需求、政府引导及西方电影影响等多重外力作用下走上了类型化的道路,初步形成了以古装动作片为主的多样化类型格局。虽然商业上取得了显著成功,艺术上却还
标识是通向品牌的入口。便于记忆及快速识别的可视品牌标识,可以促进人们对品牌的感知和认同。最好的标识在提升品牌。创造和建设一个品牌,设计扮演着至关重要的角色。设计使
电能需求的增加和环保要求的压力促进了分布式能源的发展。据文献报道,2010年之前全球累计新增发电容量的25%到30%为分布式发电。风电是无需燃料费用的可再生绿色分布式能源,