论文部分内容阅读
互联网的蓬勃发展带来了数据的大量积累,而健康医疗产业作为一类非常重要的大数据来源,也越来越引起大家的关注。如今,医疗方面的在线服务产品如雨后春笋般涌现出来,其中在线问答服务以其方便有效、回复及时、专业性强等特点越来越受到大家的认可和接受。因此,我们调研了中国目前活跃度比较高的健康门户的问答模块,发现经过这么多年的积累已经产生了上亿规模的数据,其中,以糖尿病为代表的慢性疾病提问最为热烈,如何充分利用已有的数据来为未来具有相似问题的用户服务,则是提出智能问答系统的关键。本文所研究的智能问答系统就是基于这些历史数据进行分析处理,从而为新问题提供及时、有效的答案。尽管国外已经出现了一部分问答系统,但是都具有一定的局限性,比如限定了问题的类型,并且在处理中文数据时,也有很多的新问题需要集中解决。本文研究的主要贡献在于:第一,在认真分析了问题和答案的结构后对其中的关键性信息进行了抽取,即实体抽取,通过实体可以更清楚的表达答案的语义;然后结合答案的TF-IDF值,问题关键字,句子特征,以及与问题的相似度等指标对句子进行打分。实验结果表明加入实体后答案摘要算法提高了摘要质量。第二,本文在实现摘要内容优化的基础上又实现了智能问答系统界面的优化,一方面我们调研了慢性病方面的典型问题,用户可以直接点击这些问题获取相应的问题答案,从而提高了效率;另一方面,我们也对该系统答案的呈现方式进行了改进,仅答案是以原数据整段显示,仅片段是经过段落切分后的包含丰富信息量的片段,片段组合是选取得分较高的片段进行组装,从而形成简介、精准度高的一段话。同时,答案中和问题中同时出现的实体也用高亮的方式进行表现出来。最后,我们评测了实体抽取的性能,以及对本系统的整体评测,结果表明本系统相比于其他健康服务具有更好的适用性。