【摘 要】
:
本文介绍了一个机械式自动文本摘要系统.对系统中的特征词抽取模块、句子加权模块和文摘输出模块进行了详细的分析.其中提出了领域词词库自学习和消除重复摘要句的方法.最后对自动摘要系统的性能进行了讨论.
【机 构】
:
成都电子科技大学计算机学院,成都,610054
【出 处】
:
第二届全国信息检索与内容安全学术会议
论文部分内容阅读
本文介绍了一个机械式自动文本摘要系统.对系统中的特征词抽取模块、句子加权模块和文摘输出模块进行了详细的分析.其中提出了领域词词库自学习和消除重复摘要句的方法.最后对自动摘要系统的性能进行了讨论.
其他文献
本文对环己胺生产现状与市场进行了探讨。文章介绍了环己胺的苯胺催化加氢法及环己醇催化氨化法合成技术与生产现状,对环己胺市场进行了分析,并提出了发展建议。
以新一代单指令微控制器ADμC842为核心实现IC总线,多片微控制器分别实现IC主机和IC设备,并实现主机与设备之间的数据通讯.该接口在微型飞行器(MAV)机载控制系统中实现并且成功对微型飞行器试飞数据进行实时采集和记录.
研究了(Ba,Sr)TiO基电容器陶瓷中掺杂稀土氧化物DyO对材料介电性能的影响,得到了DyO影响其性能的规律,即随着DyO加入量的增加材料的介电常数开始增大随后减少,当W(DyO)=0.5﹪时介电常数最大,而介质损耗逐渐减少.得到了介电常数为5245,介质损耗为0.0026,耐压为5.5kV/mm的高压低损耗陶瓷电容器瓷料.探讨了DyO掺杂改性的机理.这些结果为DyO掺杂改性电容器陶瓷提供依据.
现有的文本自动分类方法通常是基于向量空间模型并使用TF-IDF表示,忽略了属性在不同类别中重要性的差异,因而影响到分类的性能.本文提出一种基于聚类的文本分类属性加权方法:把训练集中的每个类别看作已知的聚簇(cluster),通过优化属性权重(每个类对应一组分类属性权重)以达到聚类效果最佳的目的,使在此权重下不同类别的文档得到尽可能的区分.运用kNN方法对Reuters-21578和20-Newsg
主成分分析是模式识别中经典的降维技术.本文尝试把它的一个变种算法--核主成分分析,与k-NN分类模型结合,应用到文本分类中.核主成分分析方法通过选择合适的核函数,利用词之间的高阶的关系进行特征抽取.实验结果表明,核主成分分析在英文语料reuters21578上达到了潜在语义索引分类性能,而在中文863评测语料上微平均F1值比潜在语义索引高2%.
本文提出了一种基于数据挖掘与智能学习技术的半分布式搜索引擎(SDSE,Semi-DistributedSearchEngine)模型,实现的系统称为PeerSearch.模型设计的主要目的:φ充分利用用户的智能为其它用户的搜索提供帮助;减轻服务器的负担,将搜索信息的发送任务分布在各客户机上.其基本思想:把网络上的客户机归入不同类别的社区,同一社区的客户机在服务器的引导下,以P2P(Peer-to-
随着信息技术的发展,数字媒体的种类和数量激增,信息检索显得越来越重要.本文将信息隐藏技术与信息检索技术相结合,提出了一种通用的基于隐写术的信息检索(SBR)方法.该方法通过隐写术对媒体文件进行标注,嵌入注释信息,达到快速信息检索的目的.该方法不必需数据库支持,不影响媒体文件的正常存储、传输和使用,使大规模媒体库的管理更加灵活高效.本文阐述了SBR的系统模型、特性分析和主要过程,最后对该方法的性能做
本文研究了文本自动摘要中的分类思想并将有监督的分类技术应用于文本自动摘要中.其创新处在于将有训练语料支持的文本自动摘要转化成两类的分类问题,并应用成熟的有监督分类技术实现文本自动摘要.实验证明这种基于分类技术的自动文摘是有效的:同时本文还分析比较了两种分类器以及质心相似度、问题相似度等重要特征在文本自动摘要中的应用.
文档集合的划分是分布式信息检索面临的一个重要问题,本文提出了一种基于链接的聚类算法(LIBCA)来进行分布式信息检索的文档划分,LIBCA算法利用网页间的链接关系来计算网页与网页、网页与网页集合之间的相似度,从而利用聚类技术实现对数据集合的划分.实验表明,按照LIBGA算法进行文档集合划分,排名前10位的文档集合含有的相关文档数占相关文档总数的80-90%,相对于随机的划分方法提高了20-30%.
本文论述了内容寻址存储(ContentAddressableStorage,CAS)技术的原理和研究情况,设计和实施了一种针对媒体归档存储的原型系统--媒体内容寻址存储(MediaContentAddressableStorage,MCAS).MCAS提出了一个合并媒体对象元数据和对象存储元数据的底层数据模型,探索了媒体存储和内容管理结合的方法.MCAS将媒体对象元数据和对象存储元数据封装成一个X