声明
摘要
第一章 绪论
1.1 研究背景及意义
1.2 DNA测序技术介绍
1.2.1 第一代测序技术——桑格测序
1.2.2 下一代测序技术
1.2.3 下一代测序优点
1.3 本文的研究目的和内容
第二章 下一代测序纠错相关技术分析
2.1 下一代测序纠错过程
2.2 基于不同底层的下一代测序纠错算法
2.3 常用基因数据存储方式分析
2.3.1 线性数组
2.3.2 链表
2.3.3 散列表/散列集合
2.4 传统区分正误基因序列方法分析——基于汉明距离的区分方法
2.5 传统基因纠错方法分析——基于k-频率的错误纠正算法
3.1 Bloom Filter介绍
3.2 Bloom Filter原理
3.3 Bloom Filter特点
3.4 Bloom Filter的错误率、哈希函数数量以及数组长度的确定
第四章 改进区分正误k-met序列的方法
4.1 互信息相关介绍
4.1.1 皮尔森相关系数
4.1.2 互信息
4.2 期望最大化算法相关介绍
4.2.1 最大似然估计
4.2.2 期望最大化算法介绍
4.2.3 期望最大化算法简介
4.2.4 期望最大化算法计算过程
4.3 改进方法——基于互信息以及期望最大化的区分方法
4.3.1 计算k-mer序列的互信息值
4.3.2 利用期望最大化算法区分受信任和不受信任的k-mer序列
第五章 改进基因纠错方法
5.1 改进基因纠错方法——多序列比对和k-频率方法相结合的错误纠正算法
5.2 利用改进基因纠错方法对测序结果进行纠正
6.1 实验环境
6.2 实验数据
6.3 实验过程
6.3.1 将待纠错读段集合切分成k-met序列
6.3.2 计算k-met序列集合的互信息
6.3.3 利用期望最大化算法拟合k-mer序列集合的频率分布
6.3.4 获得受信任的k-mer序列集合
6.3.5 使用Bloom Filter存储受信任的k-met序列
6.3.6 使用多序列比对和k-频率方法相结合的错误纠正算法进行纠错
7.1 论文总结
7.2 论文的不足与展望
参考文献
致谢
攻读硕士学位期间参与项目和发表论文情况