询问式搜索请求的模式分析

来源 :第九届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户：huanjian1012004

【摘要】

：

目前基于"关键词"的搜索引擎还无法"理解"用户的搜索请求。原因是,使用"关键词"进行信息搜索是不符合人类的语言交际行为的。人类在实际语言交流中使用的获得信息的语言组织形式是句子而不是词语或短语,而疑问句是人们在交流时最经常、最自然使用的句子形式。本文对询问式的搜索请求进行了模式上的分析,希望以此为询问式搜索引擎的设计做必要的语义分析上的准备.

【作者】

：

刘鹏元

【机构】

：

北京大正语言知识处理科技有限公司北京 100081

【出处】

：

第九届全国计算语言学学术会议

【发表日期】

：

2007年8期

【关键词】

：

询问式搜索请求模式分析搜索引擎信息搜索语义分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于多重冗余标记CRF的句子情感分析研究

本文针对评论分级的问题展开讨论,提出了一种多重冗余标记的CRF方法。在理论上,该方法为基于最大似然训练的学习算法解决序回归问题提供了一条途径。在情感分析任务中,该方法不仅能够有效地解决有序标记的分类问题,还能够在保持各任务使用不同特征的同时,将情感分析中的主客观分类、褒贬分类和褒贬分级任务统一在一个模型之中,制约分步完成时误差的传播。实验证明,该方法有效地提高了最终分级任务的准确率。

会议

句子情感条件随机场序回归统一模型冗余标记学习算法

基于语义计算的中文相似问句抽取

随着网络上的基于社区的问答服务平台不断增多,积累的问题和相应的答案数量迅速增长。这些问题答案对的积累为实现基于网络的自动问答技术提供了一个大规模资源库。为更好地利用互动式问答平台已经积累的大量的问题答案对,本文讨论了一种新的基于语义计算的中文相似问句抽取方法。试验结果表明,使用这种方法可以有效地在问句集中抽取出语义相似的问句,同时也为提问者快速得到解答提供有益指导。

会议

语义计算知网相似问句问句抽取语义相似

基于句型模板和统计机器翻译技术的翻译方法

当前统计机器翻译系统还存在很多弊端,对于一些常见的语言学现象的处理并不理想,离真正的实用化还有一定的差距。本文结合统计和规则翻译方法的优点,提出了一种将句型模板融进统计机器翻译系统的方法。实验结果表明,该方法有效地解决了统计机器翻译系统中固定句型模式的翻译问题和一些远距离的词序调整问题,提高了机器翻译系统的翻译质量。同时,句型模板的引入也为用户在统计机器翻译系统中添加语言学知识提供了一种有效的途径

会议

句型模板统计机器翻译词序调整翻译质量

FirteX-高性能全文索引和检索平台

FinteX是一个功能强大、高性能、灵活的全文索引和检索平台。FinteX的主要目标是作为一个开放式的实验平台研究信息检索的各种数据结构、算法和模型,并可快速搭建实验系统。高性能和灵活的架构也使FinteX可以应甩在各种垂直搜索以及大规模搜索引擎等领域中。本文详细描述了FinteX的系统架构、相关算法、索引结构和系统实现。在426GB的GOV2数据集和271GB的搜狗互联网语料上的实验表明,Fin

会议

信息检索平台全文索引Web检索数据结构搜索引擎

基于HNC理论的语义标注语料库

在HNC已有语句级语料标注规范的基础上,本文重点了介绍了基于XML方式的语料标注和管理工具。这一方式有助于改善原有标注系统存在的不足。同时,本文还讨论了在新标注方式下实现各种检索统计功能的方法,并给出了目前语料库的部分统计数据。

会议

语料库语义标注检索统计标注规范

基于熵权的改进ISODATA聚类算法的研究

本文采用一种客观赋权方法──熵权法来确定综合评价中各指标的权重,并把熵权法和传统的ISODATA聚类方法相结合,在ISODATA的目标函数中引入权重,给出了含有熵权的ISODATA聚类的迭代公式,提出了基于模糊聚类和熵权的改进的综合评价算法,并将该算法应用于教师绩效评价,通过分析发现其评价结果更加有效。

会议

聚类算法模糊聚类熵权综合评价评价算法

生物医学命名实体识别的特征选取与评价

本文研究的主要目的是针对生物医学命名实体的特点开发使用有效的特征集合,并结合使用不同的信息资源,以提高基于特征的机器学习方法识别生物医学命名实体的性能。本文详细分析了各种特征包括局部特征、全文特征及外部资源特征对基于条件随机域模型的生物医学命名实体识别系统的贡献。系统使用JNLPBA语料作为评测语料,获得了72.0％的F测度值,实验结果证明本文针对生物医学领域命名实体特点而选择的特征对于识别任务是

会议

命名实体识别特征选择机器学习条件随机域生物医学命名命名识别

基于虚拟主题的网络关键资源页面定位技术研究

关键资源页面是网络信息环境中一类重要的页面,是用户进行网络搜索的主要目标。虚拟组织是网格体系结构中的基本单元,本文借鉴网格研究中虚拟组织的结构的研究和分析,基于网络用户搜索行为分析提出虚拟主题的概念,并构架基于虚拟主题的用户关键资源页面定位框架系统,提供有效的关键资源页面定位服务。实验表明,这种框架很好的组织了不同搜索引擎上的用户行为,并利用用户的查询点击行为信息有效的对用户关心的主题进行关键资源

会议

网络搜索引擎关键资源页面用户行为虚拟主题虚拟组织页面定位

面向术语定义识别的语料库建设研究

本文介绍了一个面向术语定义识别的术语释义信息标注语料库和针对语料库建设所开发的辅助软件系统。语料库建设工作包括原始语料收集、标记集确定、语料标注和辅助软件开发等几部分。在标注语料库中标出的内容有术语和它的定义或解释性语句。本文还对标注结果进行了介绍。本研究所产生的语料资源可作为术语提取和定义识别的训练语料和测试语料,也可作为专业领域知识本体构建的结构化知识来源。

会议

术语提取定义识别带标语料库标记集语料标注

英文口语中非流利区域的检测

本文介绍了我们在非流利部分检测以及对非流利句子进行句法分析上的工作。我们的主要贡献是扩大了非流利部分检测的特征集合,最佳特征选择,并且比较了三种不同的分类器(AdaBoost,Maximum Entropy,and Conditional Random Fields)在这个任务上的结果。通过上述的改进,我们系统的结果相对于考虑标点符号的最优结果[2]在 F 值上有了43．98％的相对提高,在不考虑

会议

非流利部分检测扩大特征集合条件随机场条件最大句法分析分类器

询问式搜索请求的模式分析

与本文相关的学术论文