摘要

根据DNA序列数据的特点,提出对DNA序列数据进行多重压缩的思想。多重压缩的首要步骤是扩展字母表。首先对DNA序列数据进行0/1编码,然后每8位转换成一个ASCII码字符,将原来的DNA序列数据仅含有的4个字符扩展到256个字符。第二步采取基于统计模型的Huffman编码压缩算法和基于转换模型的Burrows-Wheeler算法,对扩展后的DNA序列数据进行二次压缩。最后对各种算法的压缩结果进行性能分析比较,比较结果显示,多重压缩算法有较优的压缩比。