基于简化基因组测序的油菜高通量SNP分析及白菜基因组DNA甲基化解析

资料来自用户(Ashley)上传,若本站收录的文献无意侵犯了您的著作版权,请点击版权申明
导师姓名
刘克德
学科专业
作物遗传育种
文献出处
华中农业大学   2014年
关键词
甲基化论文  白菜论文  甘蓝型油菜论文  基因丢失论文  双酶切论文  遗传图谱论文
论文摘要

芸薹属包括白菜、甘蓝和甘蓝型油菜等很多重要的经济作物,是与模式植物拟南芥亲缘关系最近的近缘种之一。芸薹属中绝大部分物种都是多倍体,其中二倍体的白菜和甘蓝也属于古三倍体,很多基因均存在三个及以上拷贝。而甘蓝型油菜是异源四倍体作物,由白菜和甘蓝在自然条件下杂交而成。目前,甘蓝型油菜的基因组序列还未公布,依赖参考基因组序列的大规模SNP分析还无法进行。另外,基因组中普遍存在的同源序列,阻碍了芸薹属作物基因组学和表观基因组学等方面的研究。本研究主要基于双酶切缩减文库和高通量测序技术,对甘蓝型油菜的一个DH分离群体进行简化基因组测序,并开发了配套的SNP分析软件RFAPtools,从复杂的同源序列中识别等位基因,构建高密度遗传连锁图谱;此外,我们还将双酶切缩减文库结合重亚硫酸盐测序,开发了双酶切RRBS技术,对白菜基因组水平上的DNA甲基化进行了解析。1.构建甘蓝型油菜高密度遗传图谱。遗传图谱是基因组学研究的必备工具,而多态性标记又是遗传图谱的基础。大量存在的同源序列及基因组序列的缺乏,使得很难在多倍体作物如甘蓝型油菜中,开发和定位SNP等多态性标记。为了解决这个问题,我们设计了一种缩减文库的构建方法,同时开发了配套的生物信息学分析软件RFAPtools。该软件主要包括三部分:1)模拟参考序列的构建;2)SNP检测;3)从同源序列中区分出等位SNP变异。通过模拟酶切,我们分析了富集到的酶切片段在染色体上的位置分布、片段的大小分布以及每个单株所需的最适数据量,证明了所开发的简化基因组测序技术的可行性。RFAPtools软件首先通过模拟参考序列的构建,可以将部分同源序列分开,同时利用prf_allele.sh脚本,基于群体数据可以从同源序列中区分出属于同一位点的等位SNP。因此该技术适用于所有物种,进行高通量SNP分析,特别是类似于甘蓝型油菜、小麦等基因组复杂且未完成全基因组测序的物种。对两个亲本及BnaNZDH群体进行简化基因组测序,利用RFAPtools软件开发SNP及分析群体基因型。最终构建了两张平行的高密度遗传连锁图,包括一张包含8780个SNP位点的遗传连锁图以及一张包含12423个显性位点的PAV遗传连锁图。将这两张遗传连锁图A亚基因组上的位点序列与白菜基因组进行共线性分析,总共检测到14个可能的拼接错误及8个可能的定位错误scaffolds序列,对白菜基因组序列进行纠正。同时与白菜未定位的scaffolds序列进行比对分析,将44个未定位的scaffolds序列(包含8.15mb)定位到白菜不同染色体上。为了验证该方法的准确性和重复性,我们随机选取44个SNP位点进行Sanger测序,并将其转化成CAPS标记检测亲本间多态性。其中26个位点得到验证,而未被验证的18个SNP位点的PCR扩增产物中,均包含多条同源序列或不含目标位点序列。利用26个得到验证的SNP位点检测91个DH单株的基因型,总共检测到2251基因型且准确性高达99.3%。对其中6个DH单株重新构建缩减文库并测序,进行重复实验,其中SNP位点的重复性高达99%以上,而PAV重复性与数据量有关,当两次重复的数据量均高于150万reads时,其重复性也较高,达到98%以上。2.解析白菜的全基因组DNA甲基化。DNA甲基化在基因表达及转座子沉默等过程中起调控作用,是最重要的表观修饰之一。近年来利用各种高通量技术对多种植物的DNA甲基化组进行了分析,为此我们改进了之前开发的缩减文库构建方法,开发了双酶切RRBS技术,并利用该技术对白菜全基因组DNA甲基化进行研究。通过比较分析发现,双酶切RRBS技术富集到的染色体区域中三种基序分别在基因和转座子区的比例,与白菜全基因组水平上基因和转座子区甲基化比例一致。同时对水稻基因组进行模拟酶切,通过与全基因组的比较分析,也得到一致的结果,证明双酶切RRBS技术能够被用来解析全基因组DNA甲基化。利用该方法,我们分析了白菜CG和non-CG位点的全基因组DNA甲基化水平,分别为CG52.4%、CHG31.8%及CHH8.3%。绝大部分CG位点不是未甲基化就是被高度甲基化修饰,而51.8%CHG及77.4%CHH位点为低甲基化修饰。同时分析了白菜不同染色体上DNA甲基化分布,发现DNA甲基化与转座子等重复序列分布一致,而与基因的分布相反。除了A02染色体的真实着丝粒区域,绝大部分真实着丝粒和古着丝粒区域均维持在高度甲基化状态。基因和转座子区域的DNA甲基化水平差异很大,其分布规律均与拟南芥类似,即在基因转录起始和终止位置区域甲基化水平最低,且基因区明显低于侧翼序列,转座子区域维持在一个比较恒定的高甲基化修饰状态。对不同亚基因组间基因区DNA甲基化进行分析,表现为LF<MF2<MF1但是差异并不明显,且该结果与基因表达水平上差异一致。对不同拷贝数基因间的DNA甲基化进行分析,发现单拷贝基因的DNA甲基化水平明显高于多拷贝基因,且转录起始和终止位置附近区域的DNA甲基化差异最大。因此认为DNA甲基化水平较高的基因更容易丢失,DNA甲基化水平较低的基因更容易被保留。LF亚基因组中单拷贝基因DNA甲基化水平显著低于其它两个亚基因组,而多拷贝基因间并没有显著差异。因此认为不同亚基因组单拷贝基因的DNA甲基化差异导致了不同亚基因组间的DNA甲基化差异,并决定LF中基因丢失的比例显著低于另外两个亚基因组。从表观遗传学上,解释了基因丢失的可能分子机理,及白菜三个亚基因组间基因丢失比率的差异。

论文目录
关闭目录

摘要

Abstract

缩略词表

1 综述

1.1 芸薹属简介

1.1.1 芸薹属及重要性

1.1.2 育种进展及局限

1.2 高通量测序技术及序列分析

1.2.1 高通量测序技术

1.2.2 NGS技术主流应用

1.2.3 序列分析及软件

1.2.4 展望

1.3 植物基因组学研究

1.3.1 植物基因组测序

1.3.2 基因组多倍体化

1.3.3 遗传作图

1.3.4 SNP标记开发及基因型分析方法

1.3.5 芸苔属基因组研究

1.3.5.1 早期分子标记的开发及应用

1.3.5.2 基于NGS的多态性标记开发及应用

1.3.5.3 基因组结构研究

1.3.6 基因组学在遗传育种中的应用

1.4 植物表观基因组学研究

1.4.1 表观遗传学与DNA甲基化

1.4.2 DNA甲基化研究方法

1.4.2.1 DNA甲基化检测

1.4.2.2 甲基化测序数据分析及软件

1.4.3 植物DNA甲基化组研究

1.4.4 表观基因组学与育种

1.5 本研究目的与意义

2 甘蓝型油菜高密度遗传图谱的构建

2.1 前言

2.2 材料与方法

2.2.1 实验材料与DNA提取

2.2.2 接头设计和复性

2.2.3 文库构建及Illumina测序

2.2.4 模拟酶切及抽样分析

2.2.5 SNP开发及基因型分析:RFAPtools

2.2.6 遗传图谱的构建

2.2.7 SNP变异和基因型的验证

2.2.8 序列提交和软件下载

2.3 结果

2.3.1 实验设计

2.3.2 酶切组合选择及初始文库构建

2.3.3 模拟酶切及酶切片段分析

2.3.4 每个DH单株所需的数据量

2.3.5 亲本间SNP和PAV多态性

2.3.6 DH群体基因型分析及图谱构建

2.3.7 群体中PAV基因型分析及图谱构建

2.3.8 SNP/PAV遗传连锁图与白菜基因组的共线性分析

2.3.9 定位未定位或者定位错误的scaffolds到白菜基因组上去

2.3.10 验证

2.4 讨论

2.4.1 缩减文库的构建

2.4.2 模拟参考序列(PRF)

2.4.3 多倍体作物SNP标记的开发

2.4.4 PAV标记的开发

2.4.5 遗传连锁图谱的作用

3 白菜全基因组DNA甲基化研究

3.1 前言

3.2 材料和方法

3.2.1 研究材料和DNA提取

3.2.2 甲基化处理及测序文库的构建

3.2.3 序列过滤及拼接

3.2.4 甲基化检测及注释

3.2.5 SNP检测

3.2.6 甲基化水平的分布

3.3 结果

3.3.1 双酶切RRBS技术的开发

3.3.2 SNP检测

3.3.3 甲基化测序及甲基化位点检测

3.3.4 模拟分析

3.3.5 CG,CHG和CHH位点的甲基化水平

3.3.6 不同染色体的DNA甲基化分布

3.3.7 不同组分的甲基化特征

3.3.8 单拷贝和多拷贝基因间及亚基因组间基因的DNA甲基化差异

3.3.9 表达差异

3.3.10 DNA甲基化与基因丢失的关系

3.4 讨论

3.4.1 双酶切RRBS技术

3.4.2 白菜全基因组DNA甲基化

3.4.3 DNA甲基化与基因丢失

参考文献

附录A

附录B

致谢

在线阅读全文下载
在线阅读全文下载