首页> 中国专利> 适用于生命科学的文本识别方法和系统

适用于生命科学的文本识别方法和系统

摘要

本发明提供了一种适用于生命科学的文本识别方法和系统,包括:步骤1:在生命科学文献数据库中,使用BERT预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;步骤2:对识别出的段落进行预处理,得到待识别文本;步骤3:通过Word2vec模型,对待识别文本中的每个词进行向量表示;步骤4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;步骤5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。本发明解决了通过人工识别实验方法中所存在的查找困难、工作量大、成本高、效率低的问题。

著录项

  • 公开/公告号CN113988073A

    专利类型发明专利

  • 公开/公告日2022-01-28

    原文格式PDF

  • 申请/专利号CN202111247514.3

  • 发明设计人 谢伟;

    申请日2021-10-26

  • 分类号G06F40/295(20200101);G06F40/211(20200101);G06F40/216(20200101);G06F40/30(20200101);G06K9/62(20220101);

  • 代理机构31448 上海锻创知识产权代理有限公司;

  • 代理人陈少凌

  • 地址 201108 上海市闵行区申南路515号2幢604室

  • 入库时间 2023-06-19 14:01:55

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号