基于Bayes潜在语义模型的半监督Web挖掘

来源 :软件学报 | 被引量 : 0次 | 上传用户:kldzn2004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的增长,Web挖掘已经成为数据挖掘研究的热点之一.网页分类是通过学习大量的带有类别标注的训练样本来预测网页的类别,人工标注这些训练样本是相当繁琐的.网页聚类通过一定的相似性度量,将相关网页归并到一类.然而传统的聚类算法对解空间的搜索带有盲目性和缺乏语义特征.提出了两阶段的半监督文本学习策略.第1阶段,利用贝叶斯潜在语义模型来标注含有潜在类别主题词变量的网页的类别;第2阶段,利用简单贝叶斯模型,在第1阶段类别标注的基础上,通过EM(expectation maximization)算法对不含有
其他文献
研究了 B-样条曲线节点的去除问题 ,简化了 B-样条曲线内部节点精确去除的充要条件 .基于约束优化方法 ,通过扰动 B-样条曲线的控制顶点 ,给出了节点去除的一个新算法 ,并用于光顺 B-样条曲线 .
相关反馈技术是近年来图像检索中较为活跃的研究方法之一.提出了一种基于神经网络自学习的图像检索方法,即在检索阶段利用人-机交互技术选出与检索图像相似的正例样本,然后构
雉鸡在我国境内分布很广,但海南省于1990年才开始引进雉鸡进行饲养繁殖的,并获得了成功。我们从1993年10月以来将东北环颈雉与美国七彩山鸡两个亚种进行了杂交繁殖,取得预期结果。1雉鸡的生
提出了一种通用并发TTCN测试执行机的设计方法.在测试并发协议实现时,采用FIFO调度算法解决了并发测试例的执行问题,并在借鉴抽象I/O队列思想的基础上提出了PTI(packet trans