声明
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 论文主要内容
1.4 论文的组织结构和创新点
第2章 强化学习与认知无线电基本理论
2.1 强化学习背景
2.1.1 强化学习的介绍
2.1.2 马尔可夫决策过程
2.1.3 常见的强化学习算法
2.2 认知无线电的关键技术
2.2.1 频谱感知技术
2.2.2 频谱决策技术
2.2.3 频谱共享技术
2.2.4 频谱迁移性
2.3 频谱分配模型
2.3.1 基于图着色论的模型
2.3.2 基于拍卖竞价的模型
2.3.3 基于博弈论的模型
2.3.4 基于Q学习的模型
2.4 本章小结
第3章 改进奖励机制的Q学习算法
3.1 引言
3.2 系统模型
3.3 动态频谱接入
3.4 自适应调制编码
3.5 体验质量
3.5.1 数据MOS模型
3.5.2 视频MOS模型
3.6 问题形式化
3.7 基于Q学习的动态频谱分配
3.7.1 定义动作和状态空间
3.7.2 改进的奖励机制
3.7.3 动态频谱接入的Q学习算法
3.8 实验结果与分析
3.9 本章小结
第4章 基于博弈的Pareto-Q学习算法
4.1 引言
4.2 系统模型
4.3 问题建模
4.4 问题形式化
4.5 基于博弈的Pareto-Q学习算法
4.6 实验结果与分析
4.7 本章小结
第5章 总结与展望
5.1 研究总结
5.2 研究展望
参考文献
在读期间发表的学术论文及研究成果
致谢
曲阜师范大学;