核桃具有极佳的经济价值与保健效果,富含人体必需的营养物质和微量元素,在国内国际市场均具有极大的消费潜力。对核桃基因组进行研究,获得遗传序列信息,有助于核桃重要农艺性状的定位与克隆,剖析复杂性状的遗传机制,对开发利用核桃优质种质资源和培育、改良核桃品种具有重要意义。本文简要统计了已进行全基因组测序的核桃属物种,并对核桃基因组学在测序技术上的更新和基因组学在核桃中的分子标记开发、农艺性状定位、物种起源分化和多组学联合等研究内容进行概述,对开发利用核桃优质种质资源和培育、改良核桃品种具有重要意义。
测序
核桃属物种基因组测序研究
核桃第1个参考基因组是美国加州大学测序组装获得,选择物种为Chandler,使用了SOAP denovo 2和MaSuRCA两种组装技术,获得667Mbp长的基因组序列,注释到32498个基因。伴随着核桃参考基因组的发布,对核桃的研究可以在全基因组范围内进行,在该基因组数据的支持下对核桃的多酚合成途径进行分析,发现了第2个多酚氧化酶基因(JrPPO2),基因组序列的研究为核桃加速育种和促进复杂性状的遗传剖析提供了重要的工具和方法。
Ning等对云南铁核桃进行了染色体水平的测序组装,使用Illumina测序平台和Nanopore测序平台分别获得了38.0Gb的短reads和66.31Gb的长reads,构建Hi-C文库获得可组装到染色体的数据,获得的基因组大小为536.50Mbp,从基因组中预测了30387个蛋白编码基因,其中99.8%已实现功能注释。Huang等对山核桃进行基因组测序,选用品种为美国的Pawnee和中国的ZAFU-1,测序深度为288 x和248 x,分别获得187.22Gb和178.87Gb长的序列,基因组组装长度为651.31Mbp和706.43Mbp,基因组测序后续分析可以为山核桃的气候适应性和抗逆性研究提供数据支持。
近年来,随着结构基因组学的发展,许多新的技术(如Hi-C、Chicago和光学图谱等)被开发应用于基因组的辅助组装。Marrano等在核桃参考基因组Chandler v 1.0基础上,使用纳米孔长读测序(Oxford Nanopore long-read sequencing)进行深度序列覆盖测序,结合染色体构象捕获技术(chromosome conformation capture)Hi-C和Illumina测序技术,组装完成染色体级别的高度连续核桃基因组Chandler v 2.0,新基因组的组装N50大小增加了84.4倍,与转录组结合挖掘到37554个基因,新的基因组极大地提高了基因预测的准确性,平均基因长度高于之前基因注释。Zhang等选择杂合度低的西藏品种Zhongmucha-1进行基因组测序,结合Hi-C、遗传、物理图谱获得了核桃染色体水平的基因组序列,基因组大小为540Mbp,注释了39432个基因,基于核桃的高质量基因组图谱,对黑核桃、野核桃和核桃楸等5个种的contig序列进行排序和定向,得到了5个种的假染色体级别基因组序列(http: //xhhuanglab. cn/data/juglans. html)。基因组学数据获取越来越快,而对基因组组装序列的评估是复杂的,有研究发现约95%的RNA-seq读数和97.25%的Illumina测序读数可以排列到最终的装配上,以此提出了一种基于基因含量进化信息预期的方法,用于评估基因组组装和注释完整性——BUSCO。Zhang等使用BUSCO评估基因组组装的完整性发现,大约94%的核心基因能够被检索到。
核桃的基因组高度杂合,组装复杂,而种间杂种的基因组通常由亲本中的单倍体基因组组成。Zhu等利用种间杂种的这一特性来避免杂合性,对亲本为小黑核桃×核桃(J. microcarpa×J. regia)的杂交种进行基因组测序,使用光学图谱技术对杂交种构建2个光学图谱,再将光学图谱上的排列序列重叠群填充到骨架(MS1-56_v0)中,填充后将杂交种的基因组组装体分配到亲本中,结合高密度遗传连锁图谱填充亲本的基因组间隙,生成了亲本的基因组数据集JrSerr_v1.0和Jm31.01_v1.0。
对于核桃类的风传媒物种,对子代的研究使用来自母系遗传的细胞器DNA会更加准确,植物母系遗传叶绿体基因组没有重组和基因转换的现象,广泛用于系统发育研究。核桃的叶绿体基因组具有被子植物典型的四分体结构,由大单拷贝区(LSC)和小单拷贝区(SSC)以及分隔的一对反向重复区(IRa与IRb)组成。Peng等使用高通量测序技术对核桃叶绿体基因组进行全核苷酸序列测序发现,叶绿体基因组长度为160537bp,大拷贝区长度为90095bp,小拷贝区为18412bp,2对反向重复序列长26033bp,共编码113个基因。Hu等对中国的5种核桃(核桃、铁核桃、山核桃、麻核桃和核桃楸)的叶绿体基因组进行测序,叶绿体基因组长度介于159714~160367bp之间,绘制了5种核桃的基因组变异图谱,包括SNP、InDel和SV、SSR、重复序列等结构变异的差异。根据5种核桃的叶绿体基因组数据,将这5种核桃资源划分为2个已知区段核桃(胡桃)组和核桃楸组,为中国地区的核桃分类、系统发育提供了信息。Song等对美国核桃和中国核桃杂交的砧木进行叶绿体测序,系统发育结果分析显示杂交获得的砧木与美国核桃的亲缘关系较近。Yang等对胡桃科枫杨(Pterocarya stenoptera)的叶绿体基因组测序并分析其与核桃种之间的系统发育关系,与包括核桃在内的14种近缘种蛋白序列分析,确定枫杨与核桃关系较近。
截至目前,已进行全基因组测序的核桃属物种共13个。随着测序技术的快速发展,核桃种的测序深度逐渐加深,组装数据也更加精准,结合二代、三代测序平台,组装水平达到染色体级别(表1)。
应用
基因组学在核桃上的应用研究
分子标记的开发
基因组中含有大量的非编码重复DNA,包括转座子、反转录因子、串联重复序列以及微卫星位点等。微卫星标记(simple sequence repeat, SSR)共显性好、多态性高,适用于高通量制图、群体遗传分析以及标记辅助育种。Aziz等评估了12个核桃种中的SSR位点,通过鉴定核SSR(nuSSR)、叶绿体SSR(cpSSR)、线粒体SSR(mtSSR),比较它们在不同基因组中的频率与分布,共验证了39000个SSR位点,显示其他物种的末端序列在核桃种内保持了90%~95%的一致性。Xu等利用泡核桃基因组数据开发了32个微卫星位点,将这些位点用于3个自然群体的60个个体进行检测,检测到这些位点具有高度的多态性,平均每个种群有4个等位基因,在核桃、山核桃、核桃楸等近缘种中有30个位点扩增成功。
全基因组分子标记的开发和基因分型是向分子育种过渡的第一步。单核苷酸多态性(SNPs)是个体间的单碱基差异,是基因组中最丰富的遗传变异来源,具有数量大、分布广、突变率低的特点。Liao等用第二代测序技术中的Roche 454测序技术对核桃进行测序,总共检测到49202个核苷酸变异,包括48165个SNPs和1037个InDels,这些SNPs和InDels将为核桃的遗传研究提供有价值的标记资源。Marrano等开发了一种高密度Axiom J. regia 700K SNP基因分型阵列,应用这种基因分型工具,可以对核桃的关键性状进行遗传剖析,使用这种SNP阵列从一组9.6Mbp的全基因组变异中获得609k的高质量SNP,数据表明获得的SNP是先前重测序确定的,使用获得的数据对超过1000株核桃进行基因分型验证,55.7%的SNPs属于多态性高的类型,亲代与子代关系进行鉴定也符合孟德尔遗传定律。Arab等使用Axiom J. regia 700K SNP基因分型技术对伊朗地区的8个不同气候区的95个核桃样本进行基因分型,其中53%的SNP属于高分辨率的多态性。Ciarmiello等对18个地理来源不同的核桃品种的内部转录间隔区(核糖体的ITS1和ITS2)中的一些SNPs进行分析,对18个品种的ITS1-5.8s-ITS2的序列进行比对发现序列分为2类,种间存在多态性,证明ITS1和ITS2区域进行SNP标记可用于核桃品种的鉴别。
重要农艺性状的定位
随着基因组测序技术的发展,与性状基因相连的遗传标记逐渐被挖掘,具有丰富序列信息的标记可以提高育种效率,使用这些标记构建遗传图谱,绘制高密度遗传连锁图谱可以清晰目的基因与染色体之间的位置。Zhu等使用特异性长度扩增片段测序(Specific Length Amplified Fragment sequencing,SLAF-seq)技术获得153820个SLAF标记,使用其中2577个多态性标记,对F1群体构建了含有16个连锁群(linkage Group,LG)的高密度遗传图谱,总图谱标记覆盖2457.82cM;根据区间映射(LOD>3.0)检测数量性状,在LG14区间上的165.51~176.33cM检测到1个炭疽病抗性QTL。
基于基因组对数量性状进行进一步分析是数量性状基因座定位(Quantitative Trait Loci,QTL)和全基因组关联分析(Genome Wide Association Study,GWAS)手段对核桃基因组功能基因的注释研究,QTL与GWAS结合使核桃从传统育种走向基因组辅助育种。Marrano等使用QTL定位和GWAS关联分析的方法探究影响核桃产量、果仁表皮颜色、物候期等5个性状的因素,表型性状数据结合SNP标记构建的遗传图谱,确认相关性状的基因座,分别在Chr1、Chr11染色体上发现了与核桃成熟期、产量与结果相关的基因组区域,在Chr6和Chr7上2个标记关联糖基转化和氧化反应。
Sideli等以核桃的果壳缝合强度为切入点,对核桃内果皮缝合线进行研究,使用700K SNP Array技术对464株核桃进行SNP多态性分析,QTL作图和GWAS结合分析,确定导致性状变异的特定位点,控制核桃果壳缝合强度的主要QTL在LG05,该QTL的基因功能是切割和降解木葡聚糖聚合物,另在LG01和LG11上分别有1个次要QTL,也可能对核桃缝合线起调控作用。
对核桃的物候期和结果习性进行研究有助于选育高产品种,Bernard等对全球各地的170份核桃材料进行GWAS分析,并对与物候期相关的78个F1子代个体进行基因组分型,结果发现在核桃第1条染色体上的SNP位点与核桃发育过程中的芽裂和雌花开花有很强的关联性,该位点得到在该区域的QTL证实。果个大、出仁率高、易取仁是核桃商品出售的主要标准,Bernard等对核桃的果实特性包括性状、大小、营养成分等品质相关的25个性状进行全基因组关联分析,结果发现60多个标记与性状关联,包含2个与核桃果仁体积与重量关联的SNP位点。
核桃仁涩皮颜色越浅越受到消费者青睐,核桃仁的涩皮颜色在不同品种、不同发育阶段表现不同。Sideli等对Chandler×Ldaho双亲后代的168株后代和本地的528株核桃进行GWAS分析,发现与核桃仁涩皮颜色的表型在Chandler遗传图谱上有重叠区域,在Chr01等多个染色体上小效应QTL位点,QTL与标记锚定染色体定位于Chr01、Chr10、Chr14和Chr16上,包括转录因子MYB113在内的12个基因被认定为可能与核桃仁涩皮颜色色素沉着有关。
在核桃生产栽培中,与开花、落叶相关的性状是植物生命周期的关键因素,也是决定核桃生产力的重要因素。Bükücü等对土耳其的188份核桃材料,通过全基因组关联分析进行基因型变异分析,结合3年与叶芽萌发、开花等13个开花、落叶相关的表型性状数据,发现了与花序数量和果实结实等性状相关的标记,关联分析结果显示16个QTL位点至少与2个表型性状相关,其中QTL05关联数量最多,与7个性状相关(开花期、萌芽期、雄花始花期、雌花始花期、雄花终花期、雌花终花期以及坚果果形),这些鉴定出来的与开花、落叶相关的标记位点与显著性QTL为以后童期选择提供了数据。
利用全基因组测序研究物种起源与演化
核桃的基因组测序长度在640M~990Mbp之间,测序结果的连续性和准确性支持对基因组变异的注释,基因组注释得清晰对于了解核桃植物及其进化分类都具有重要的意义。Stevens等对北加州黑核桃、黑核桃、小黑核桃和核桃进行基因组深度重测序,重测序结果将核桃属分为3类:①黑核桃组:J. nigra、J. microcarpa、J. hindsii;②核桃组:J. regia、J. sigillata;③核桃楸组:J. cathayensis。利用重测序数据对多酚氧化酶位点PPO的结构和序列变化进行深度分析,研究结果显示PPO1位点在谱系上表现出加速分化和氨基酸置换过剩的现象,这些现象可能导致核桃和山核桃的驯化。Mu等使用全基因组限制位点相关的DNA测序方法(2b-RAD)对野生和栽培麻核桃种进行研究,通过构建物种进化树和测序结果得出麻核桃是核桃和核桃楸的杂交后代。
Zhang等对19种核桃种的80个个体,以及近缘种枫杨和化香树(Platycarya strobilacea Sieb)进行全基因组重测序,使用单拷贝核基因的系统发育网络分析、全基因组位点模式概率等方法得出核桃及其地方品种泡核桃是美洲核桃和亚洲核桃的杂交后代,而灰核桃是亚洲核桃大量渗入美洲黑核桃基因组的结果,通过贝叶斯计算模型发现其在上新世晚期(3.45Mya)开始分化,而2种亲本血统在欧洲已经灭绝。Mu等基于RAD-seq技术和叶绿体基因组数据对核桃属的系统发育进行重新分析,分析结果在群体水平上支持胡桃亚科的拓扑结构,最终在化石记录、系统发育和谱系分化时间等的证实下提出核桃木亚科起源于北美,通过白令海峡和北大西洋陆桥向欧亚大陆迁移。
通过对核桃基因组的研究预测过去的气候生态信息,并更新核桃避难所的位置。Aradhya等对高加索地区、中亚、东亚、亚洲西南和东欧等317份核桃材料643种基因型进行遗传多样性和群体结构分析,分析核桃现今期、末次盛冰期(Last Glacial Maximum,LGM)、末次间冰期(Last Interglacia,LIG)的空间与时间分布,结果表明LGM期间核桃的分布范围主要局限于南高加索地区的南纬地区、西藏西南部的中亚和南亚地区、印度东北部、锡金和不丹的喜马拉雅地区以及中国东南部,在北纬30~45°的地理区域内的避难所存活。
随着末次盛冰期到来,迫使适应温暖的环北方植物群迁移,并被限制在亚洲东部、北美和欧亚大陆西南部的大型南方避难所。Bai等对亚洲南北2个地区的核桃进行了多样性分析,2个地区间存在一条干旱隔离带,结果北部为核桃楸属和日本核桃(Juglans ailantifolia Carr),南部为山核桃属,推测主要原因为北部原始山脉的地域差异而分化,此后基本保持分离。Wang等利用12个SSR位点对中国东北和朝鲜半岛的19个核桃群进行了末次冰期后物种的扩散模式探究,结果发现在末次冰期后物种扩散的过程中,东北地区的核桃几乎没有遗传多样性缺失的现象,推测是由于在北方种群传播过程中缺乏长距离的传播机制,因而遗传多样性的维度没有下降。Ebrahimi等对北美核桃、亚洲核桃和核桃的基因型和抗寒性进行了评估,结合耐冷基因的表达量和系统发育分析得出,核桃与其他亚洲核桃核基因组聚为一组,且核桃的遗传多样性低于其他样本,鉴定的耐寒冷基因最低,分子机理与生理数据高度相关,可以有效地表征核桃品种的耐寒性。
现在核桃群体种质资源分布的多样性除代表冰川后的扩张、定居和种植外,还包括自然和人类选择和驯化的复杂的相互作用。Bai等推算核桃物种演化时间,对11个温带核桃物种的基因组进行两两测序的马尔科夫合并方法,估算核桃有效种群大小(Ne)的变化轨迹,再使用G-PHOCS方法估算多个基因组间的分化时间,结果得出核桃属在100万年前开始分化,这一结果也被G-PHOCS对发散时间的估计所证实,但它们对冰期后的气候反应并不相似,Ne变化的时间和幅度不同,推测核桃种群的进化历程中不单单存在环境改变,与特定病原体的共同进化交互作用等物种特异性因素可能发挥了关键作用。
Paola等使用14个微卫星位点对91个欧洲核桃进行遗传多样性评价,构建欧洲核桃的种群历史谱系和传播途径,结果表明在罗马帝国时期就存在东欧、西欧的种间杂交,而在过去的5个世纪里,在欧洲东北部和西欧出现了人口规模的扩张和随后的下降,核桃在欧洲的实际分布是末次盛冰期后多个避难所的扩张或收缩和过去5000年来人类对其开发的综合作用的结果。
基因组与其他组学结合,挖掘基因表达信息
获得高质量的基因组,将使多倍体高重复的复杂物种的转录分析更加准确。Hu等利用Illumina测序技术和De novo组装获得平均长度747bp的转录组数据,利用这些数据鉴定到63个新的SSR标记,使用这些标记对4个群体中的4~14个个体进行标记检测,检测到20个SSR标记具有多态性且易于扩增。Zhao等对核桃脂肪合成的3个发育时期(初期发育期、快速发育期、成熟发育期)进行转录组测序分析,3个发育阶段共获得68.18Gb的数据,92%~94%的clean data可以比对到参考基因组,分析脂肪合成相关的关键基因的表达水平,确定ACCase、LACS和FAD7是与脂肪合成相关的关键基因。Quan等对核桃花芽分化不同时期进行cDNA文库测序及石蜡包埋组织切片方法观察形态变化,雌花芽与叶芽间差异表达的DEGs有374个,构建与花期有关的DEGs共表达网络,鉴定出CRY2和NF-YA基因是调控花期的核心DEGs,通过cDNA测序对核桃成花过程的表达基因进行筛选,为核桃的开花机理提供了理论依据。
将基因组数据和转录组数据补充现有的蛋白质序列数据库,利用这种蛋白基因组数据库可以极大地改善MS/MS搜索结果。Cary等通过基因组测序和转录组、蛋白组的数据库检索光谱,并将提取的核桃进行液相色谱-质谱(LC-MS/MS)分析,最终在基因组数据库中确定出10个独特多肽段,转录组数据库中的识别多肽数量增加了20%,为核桃等坚果物种的蛋白数据库奠定了基础。Zaini等对早实、晚实核桃的种皮颜色进行研究,揭示了在采收期中常见蛋白与特异蛋白的321个差异明显的种皮膜层蛋白,蛋白质组学分析检测到4937个蛋白,涉及到抗氧化、次级代谢等途径。
展望
随着新测序技术的不断更新,基因组学相关研究实现快速发展,以高通量测序技术为基础的各种组学研究广泛应用于核桃等植物的各个领域。测序技术的成熟加上测序成本的降低,越来越多的果树物种的基因信息被破解。而果树的全基因组测序工作仍需继续推进,核桃等果树的功能基因组学研究远不及水稻、玉米等农作物,主要原因仍为果树是多年生植物,有性繁殖周期长,建立杂交群体至开花结果得到想要研究的性状需要很长时间;另外对功能基因的定位与验证也受到完善的表达体系的限制,除苹果等国内主栽经济果树外,大部分果树仍需借助模式植物进行验证。
随着测序技术的不断进步,通过测序获得了越来越多果树的全基因组序列,同样在转录组、蛋白组、代谢组等生物信息数据也在不断积累,而建立一种包含基因组、转录组、蛋白组等相关数据的综合性数据库显得尤为重要,目前在柑橘属(Citrus Genome Database,https: //www. Citrusgenom-edb. org/)、梨属(Pear Genome Project,http: //pear-genome. njau. edu. cn/)已拥有基因组数据库,通过对综合数据库的生信数据进行分析、储存以及整合,可为果树基础研究和应用研究提供可靠数据信息。对核桃的全基因组测序能够推进核桃的基因组学研究,丰富核酸序列和基因资源,为进一步开发分子标记、挖掘重要功能基因和解析生长发育机制等分子生物学研究提供重要基础和依据,加快核桃分子辅助育种进程。
声 明:本文摘编自《中国果树》2022年第2期“核桃基因组学研究进展”(武鹏雨,刘婷婷,包建平,虎海防,马凯,张锐)。