面向汉语短文的话题识别系统研究

来源 :第二十一届中国数据库学术会议 | 被引量 : 0次 | 上传用户:dama5011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了一个对来自多数据源的汉语短文进行话题识别的系统及其实现方法。从初步的模拟实验结果来看.该系统达到了预期的目标,系统中使用的词频统计方法和短文聚类方法是有效的。对系统的完善和进行实际环境中的完整测试还需要做大量的工作。短文的聚类问题仍是今后需要研究的重点。
其他文献
本文在P2P网络环境中提出一种新的框架结构PeerHeap,以解决各节点缓存数据与动态更新的源数据保持一致性的问题。本文将数据缓存技术由传统的集中式系统扩展至动态变化的P2P系统中。在没有任何集中式管理和计算的情况下,通过节点间的相互协助,实现动态更新的不断传递。同时,在更新传递过程中,保证各个节点所缓存的数据满足一致性约束。针对P2P网络节点的自我管理的特征,本文就节点的加入、退出及一致性约束变
本文利用模糊综合评价进行企业电子商务解决方案的评价,该方法能把影响信息系统各种因素进行综合考虑,而不是简单地加权平均,在很大程度上消除了人为因素的影响,增强了所得数据的客观性.实验结果和实际是相符的,说明此方法具有可行性。
语义图像检索必须解决图像的语义描述和语义提取等关键问题,传统的基于语义标注的方法中,通过关键字标注图像的高层语义,缺乏对图像内部结构的考虑,而图像结构往往隐含有丰富的语义信息,如何实现图像结构和语义信息的统一描述,是急需解决的一个间题。本文根据对象空间关系及其不同的语义层次,提出了用本体描述图像,实现对象空间关系不同层次的抽象,结合图像的内容标注,实现了基于本体描述的图像语义表示,给出了基于这种描
本文结合大学数字图书馆的需求,研究元搜索引擎的数据库选择方法,一方面对资源进行了抽样,获得每个资源中最能代表其领域特征的词,另一方面,对用户的查询行为进行挖掘,以修正抽样的偏差,这两者的结合使数据库选择精度有了明显的提高。
本文设计了一个基于本体的非结构化信息处理体系框架OBSA,并在此基础上提出了基于本体(Ontology)的以XML表示的非结构化信息的查询机制,从信息客体或信息对象出发,通过建立信息客体之间的概念联系和等级关系,将对信息客体的揭示深人到知识内涵的层次,让用户在其所熟知的概念层实现信息的查询访问而不必关心XML文档本身的结构,更为重要的是该机制描述了信息客体内在联系的推理规则,使得获取隐含于文档中的
本文首先分析了多数据库系统中并发控制所面临的问题,之后根据LDB的自治程度对已有的多数据库系统并发控制方法进行了总结和分类,并对每种方法的利弊作了详细的讨论和分析。
由于多库系统底层数据库的异构性,因此一个多库系统中,可能有些底层数据库是未知的DBMS,有些是基于SP调度的DBMS,还有些是强可恢复DBMS等,在这种情况下,如果我们都把它们当作未知的DBMS来进行多库系统的全局并发控制,显然会损失很多全局事务的并发度。基于这个思想,本文提出了一种新的多库系统并发控制策略一集中式保守并发控制框架.该方法基于多库系统中所有底层的DBMS都采用SP调度的假设,如果底
使用基于知识的方法解决语义问题是目前研究较多的方向,其出发点是希望利用经验和领域分析的结果建立一套统一的知识背景,从而统一领域内用户对信息的理解.本文提出的设计模式就尝试将本体概念和传统数据库设计方法结合起来,在关系数据库设计阶段就引入语义信息的设计模式,使得智能代理能够从语义的角度理解传统的关系数据库。本文以学校的电子教务系统为背景,介绍基于本体的关系数据库的语义设计模型。其特点是通过对领域内知
Web Services是一种在Internet上动态共享应用数据和功能的手段,为构建高效、灵活的新型软件应用提供契机。CORBA在企业级应用集成取得极大成功的同时,延伸到Internet有一定的局限性.本文提出CORBA Web Service,静态、动态两种体系结构,重点研究可扩展体系结构、SOAP/IIOP协议数据类型映射、统一服务提供框架和服务动态发布等多项关键技术,将面向企业的相对封闭、
本文就分布式数据库系统中基于并行分层式链路的P2L2PC协议进行了研究。研究表明,P2L2PC协议是在2PC协议基础之上的扩充,P2LZPC协议中发生的消息交换可能是并行的,而且对并行消息的反应也进行推断,既保证并行消息的补偿性又使并行消息不产生逻辑上的冲突,这也是P2L2PC协议和传统2PC协议的区别,也是P2L2PC协议本身的优点所在。P2L2PC协议有其特定的优点,尤其是P2L2PC协议的较