旧版下载已关闭,请移步到新版下载(点击打开新版

文本自动摘要方法研究

资料来自用户(Harry)上传,若本站收录的文献无意侵犯了您的著作版权,请点击版权申明
导师姓名
韩斌
学科专业
计算机软件及计算机应用
文献出处
江苏科技大学  年
关键词
自动摘要论文  句子权重论文  主题模型论文
论文摘要

是利用计算机通过各种方法对文本或文本集中能够准确反映原文中心内容的重要信息进行抽取、总结。信息的快速增长使得人们面临信息过载的困扰,面对海量信息往往无法从中快速准确地获取所需信息,而文本自动摘要技术能有效地解决此类问题,利用它可以帮助人们快速有效地从网络上获取高质量的所需信息。目前的文本自动摘要技术生成的摘要质量还有所欠缺,因而如何有效地利用自动文摘技术提取文本摘要是本文的主要研究内容。本文将Text Rank算法应用到文本自动摘要上,提出了一种基于Text Rank的文本自动摘要算法(SW-Text Rank);把LDA主题模型引入到文本摘要的提取过程中,解决了Text Rank算法无法考虑文本主题的问题;利用基于字词的Bi LSTM-CRF模型来识别中文文本中的命名实体,获取有效信息,并对词语节点权重进行调整,从而提高生成的文本摘要的准确性。主要工作内容包含以下两部分:(1)针对Text Rank算法在自动提取中文文本摘要时忽略了词语间的语义相关信息及文本的重要全局信息的问题,提出了SW-Text Rank算法。通过Word2Vec训练的词向量来计算句子之间的相似度,并综合考虑句子位置、句子与标题的相似度、关键词的覆盖率、关键句子以及线索词等影响句子权重的因素,从而优化句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到最终的文本摘要,最后通过实验进行验证。(2)提出了一种结合LDA主题模型与Bi LSTM-CRF命名实体识别模型的文本自动摘要方法。该方法将LDA模型引入到文本摘要的生成过程中,充分考虑LDA模型获取的主题分布,使得生成的文本摘要更加贴近文本主题;利用优化的Bi LSTM-CRF模型来识别文本中的命名实体,从而得到文本中有用的人物信息、地点信息以及发生事件的机构信息,基于此对Text Rank词图中词语节点的权重进行调整;然后利用SW-Text Rank算法生成最终的文本摘要并进行实验验证。

论文目录
关闭目录
摘要
Abstract
第1章 绪论
  1.1 研究背景和意义
  1.2 研究现状
    1.2.1 国外研究现状
    1.2.2 国内研究现状
    1.2.3 TextRank研究现状
  1.3 研究目标及内容
  1.4 论文组织结构
第2章 相关理论概述
  2.1 文本摘要相关技术
    2.1.1 文本向量化表示
    2.1.2 文本相似度计算
    2.1.3 文本网络图构造
  2.2 TextRank算法
  2.3 自动文摘评价方法
  2.4 本章小结
第3章 基于SW-TextRank的自动摘要方法
  3.1 句子相似度计算优化
  3.2 句子权重计算优化
  3.3 改进算法实现
  3.4 实验与结果分析
    3.4.1 实验数据与评价标准
    3.4.2 实验结果与分析
  3.5 本章小结
第4章 基于主题模型和命名实体识别的自动摘要方法
  4.1 相关技术
    4.1.1 命名实体识别
    4.1.2 LDA主题模型
  4.2 基于字词的BiLSTM-CRF模型构建
  4.3 结合BiLSTM-CRF模型和LDA主题模型的自动摘要
    4.3.1 算法思想
    4.3.2 算法实现
  4.4 实验与结果分析
    4.4.1 实验数据与评价标准
    4.4.2 对比实验与结果分析
    4.4.3 生成摘要对比
  4.5 本章小结
总结与展望
参考文献
攻读硕士期间发表的学术论文
致谢
全文下载
全文下载