摘要

通过Illumina Hi Seq高通量测序平台,基于RNA-Seq测序技术,利用MISA及GATK分析方法探究青藏高原生境下水毛茛转录本中SSR和SNP位点信息。结果共得到297 224条Unigenes,0~2 000 bp长度范围的序列占总序列的97.40%。共搜索到26 086个SSR位点,SSR的分布频率为8.78%,分布密度为1/12.8 kb。50%的SSR长度在10~14 bp,只有1%的SSR的长度超过100 bp。水毛茛SSR中主要重复类型为单核苷酸重复,占54.70%;其次为三核苷酸重复,占24.71%。单核苷酸重复类型中,A/T类型占96.52%;三核苷酸重复类型共有10种,最多的是AAG/CTT,占22.17%。水毛茛转录组中SSR单元重复次数大于5时,SSR的基元以单核苷酸为主;当重复次数小于5时,三核苷酸是主要的重复基元。成功搜索到8 712 752个SNP位点,SNP的分布密度为1/38 bp。SNP类型统计中纯合型SNP是杂合型SNP的3倍。SNP位点统计中,转换类型占64.4%,颠换类型占35.6%,SNP变异类型以转换类型为主。SNP测序深度统计发现在≤30范围内,SNP数目最多,占53.84%;其次在31~100范围内,占32.8%;在401~500范围内最少,仅占0.04%;当测序深度大于500时,SNP个数为0。研究结果为青藏高原水毛茛保护、繁育、遗传多样性及其适应青藏高原极端环境的分子机制研究等工作提供科学基础。