首页> 中文学位 >“材料基因”高性能化学信息检索系统的设计与实现
【6h】

“材料基因”高性能化学信息检索系统的设计与实现

代理获取

目录

声明

摘要

第1章 引言:材料的基因

1.1 化学与计算科学

1.2 “材料基因”计划

1.3 DCAIKU与材料基因

1.4 本文结构

第2章 检索系统的整体架构

2.1 材料的检索

2.2 DCAIKU设计的主要挑战

2.2.2.消除全表扫描:索引技术

2.3 DCAIKU的整体架构和技术选型

2.3.1.索引技术栈

2.3.2.数据库和Web服务器

2.3.3.上层架构

第3章 数据库设计

3.1 “卡片”的整体结构

3.1.1.识别(Identification)

3.1.2.别名(Aliases)

3.1.3.结构(Structure)

3.1.4.理化性质

3.1.5.谱学资料

3.2 卡片以上的存储结构

第4章 关键字与数值检索

4.1 DCAIKU的关键字搜索

4.2 ElasticSearch的查询语言(DSL)

4.3 查询项的转换

4.4 查询结果的处理

第5章 结构检索

5.1 描述符

5.2 描述符的获取

5.3 新结构登录

第6章 接口、界面和交互

6.1 API接口

6.2 主要交互界面

第7章 对DCAIKU的评估

7.1 准确性

7.1.1.关键字检索的部分

7.1.2.结构检索部分

7.2 性能与伸缩性

第8章 总结

8.1 未来工作

8.1.1.卡片种类方面

8.1.2.数据获取方面

8.1.3.检索机制方面

8.2 总结

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

化学信息学和材料信息学在今天的化学研究中地位日益显著,而在其中,计算机辅助的化学信息检索,包括基于关键字的检索、基于数值的过滤,以及结构检索,成为了实现高效化学信息管理的重要部分。
  为此,笔者在CouchDB和ElasticSearch基础之上,开发了一个名为DCAIKU的高效率、高灵活性的化学结构和数据检索系统。DCAIKU可以高效处理对于化学关键字、数值的过滤,并且通过描述符机制,将化学结构检索转换为和文本检索相似的模式。除此之外,DCAIKU通过选择使用无模式的文档数据库,使其可以支持多样性巨大的化学信息。
  通过在百万量级的数据库中和其他同类服务对比测试,笔者认为DCAIKU对于关键字和结构的检索性能都处于优势地位:准确性达到与同类检索工具相当的水准,可以轻松应对百万量级的记录,维持检索过程的吞吐量和低延迟,且响应速度和吞吐量均提高了一个数量级。故此笔者认为DCAIKU可以成为下一代大规模、低成本的材料检索体系的基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号