基于主题搜索引擎的文本聚类分类研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:isnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随互联网的发展和大数据时代地来临,触手可及的信息出现内容形式的多元化和数量上急剧增长化的特点。出现了长度较短、内容精炼的各种类型的短文本,如标题和微博等。同时在如今信息过载的时代,通用性的搜索引擎已经不能很好地满足用户对信息检索的针对性和准确性请求,越来越多面向主题的、垂直化的主题搜索引擎应运而生。无论是综合性的搜索引擎还是针对性的主题搜索引擎,文本挖掘都在其中扮演着重要的角色。如果在主题搜索中能很好地对这些随机性强的短文本形式的文本进行聚类分类将起到事半功倍的效果。针对上述情况,本文的主要工作和成果如下:第一,针对目前标题文本分类常用方法的一些问题,如需要完整全面的领域词表库支撑、或需要额外收集整理一些辅助的训练语料或者需要进行复杂的句子语义分析等,提出了一种基于LDA模型的无监督特征选择的分类算法。该算法克服了标题文本分类的上述问题,并且具有较好的分类效果和较强的可操作性。第二,针对文本聚类算法中K均值算法对初值的选择比较敏感,随机选择的不同初始种子能致使最终收敛聚类结果差异较大的问题,提出了一种优化初始质心的K均值聚类算法。该算法建立在第一方面提出的特征选择方法后的良好特征矩阵上。在语料库上的实验表明,算法用比较少的迭代次数最终收敛到较为准确稳定的聚类结果上。第三,设计实现了一个招标主题搜索引擎系统,把上述提出的文本分类聚类算法应用到系统的分类模块中。该系统的主要功能是从收集好的招标种子站点网站中获取发布的招标或中标网页信息,然后从这些网页中抽取所要信息,如招标时间,招标标题,招标联系人,招标正文等。最后把抽取到的信息按照一定标准如行业或地域进行分门别类。
其他文献
据中国之声《新闻纵横》报道,2007年3月17号,中国国家博物馆在官方网站上发布暂时闭馆的通告:从那一天起,位于北京天安门广场东侧的博物馆大楼里所有展览全部关闭。
2019年12月20日,自治区政府新闻办召开内蒙古自治区减税降费工作情况新闻发布会。自治区人民政府副秘书长杨利民作主题发布。自治区财政厅副厅长冯建中、内蒙古税务局副局长
目的 分析非静脉曲张性上消化道出血临床治疗效果。方法 回顾112例非静脉曲张性上消化道出血患者临床资料,均采取内镜及胃镜下治疗,观察治疗效果。结果 112例患者治疗总有效
马克思认为,人类社会是“一切关系同时存在又相互依存的社会机体”。社会有机体是马克思用以描述人类社会及其运行发展的总体性范畴,它既是一切社会要素、结构互相联系、相互
为了规范物业承接查验行为,加强前期物业管理活动的指导和监督,维护业主的合法权益,住房和城乡建设部制定了《物业承接查验办法》(以下简称"办法"),于2011年1月1日起施行。因物业
随着国内医疗水平提高,在临终患者生命维持和延长方面,医院拥有了血液透析、靶向治疗、人工呼吸辅助等一系列技术。这些技术在延长临终患者生命的同时,也加剧了临终患者在接
修购专项是财政部为改善中央级科学事业单位的科研基础条件,推进科技创新能力建设,特设立的“中央级科学事业单位修缮购置专项资金”,是指中央财政在年度预算中安排的用于中
“双一流”的时代背景推动了高校辅导员与大学生之间协同合作、共同进步的关系的发展,建立了高校辅导员和大学生之间的“命运共同体”,包含学习共同体、制度共同体、行为共同
2014年10月27-30日济南由《涂料工业》杂志、中国聚氨酯工业协会水性聚氨酯专委会联合主办的2014年水性聚氨酯行业年会将于10月27—30日在山东济南召开。
目的探讨中性粒细胞/淋巴细胞计数比值(NLR)在老年慢性支气管炎伴感染患者中的应用价值。方法收集2015年l月-12月在该院呼吸内科住院的慢性支气管炎伴感染患者716例,分别做外