首页> 中国专利> 一种基于机器学习的多特征文本数据相似度计算方法

一种基于机器学习的多特征文本数据相似度计算方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于机器学习的多特征文本数据相似度计算方法，使用文本矢量化算法将每条数据的每个特征转化为一个矢量数组；将每条数据的多个特征生成的矢量数据进行拼接，正则化处理，并将所有数据的对应矢量数组组成一个矩阵；可选地使用PCA算法对上述矩阵进行降维；由业务专家在上述数据中标注出一系列相似数据对，每个数据对由两条相似数据组成；基于上述相似数据对，计算出矢量距离映射矩阵，并基于该矩阵得到矢量距离计算公式；使用低精度聚合算法。该方法采用机器学习算法实现了多特征文本数据的距离计算，并使用低精度聚类方法降低了计算量，提升了算法性能。

著录项

公开/公告号CN109145111A

专利类型发明专利
公开/公告日2019-01-04

原文格式PDF
申请/专利权人深圳市翼海云峰科技有限公司;
展开▼

申请/专利号CN201810838529.9
发明设计人陈磊;
展开▼

申请日2018-07-27
分类号
代理机构
代理人
地址 518000 广东省深圳市福田区福田街道口岸社区福田南路38号广银大厦17层1716-05
入库时间 2024-02-19 08:07:13

法律信息

法律状态公告日

法律状态信息

法律状态
2019-01-29

实质审查的生效 IPC(主分类):G06F16/35 申请日:20180727

实质审查的生效
2019-01-04

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于机器学习的多特征文本数据相似度计算方法 [P] . 中国专利： CN109145111A . 2019-01-04
2. 一种基于多特征融合的短文本相似度计算方法 [P] . 中国专利： CN107273913A . 2017-10-20
3. TEXT DATA SIMILARITY CALCULATION METHOD, TEXT DATA SIMILARITY CALCULATION APPARATUS, AND TEXT DATA SIMILARITY CALCULATION PROGRAM [P] . 日本专利： JP2006139708A . 2006-06-01

机译：文本数据相似度计算方法，文本数据相似度计算装置和文本数据相似度计算程序
4. Similarity calculation device for calculating a correlation-based similarity of image recognition apparatus, a similarity calculation method, the recognition method, the verification program and a recording medium recording it [P] . 日本专利： JP4468756B2 . 2010-05-26

机译：用于计算图像识别装置的基于相关度的相似度的相似度计算装置，相似度计算方法，识别方法，验证程序以及记录该相似度的记录介质
5. MACHINE LEARNING METHOD BASED ON OPTIMIZATION AND CUSTOMIZATION OF DOCUMENT SIMILARITY CALCULATION FOR FILTERING DOCUMENTS BY USING CUSTOMIZED SIMILARITY CALCUATION METHOD [P] . 韩国专利： KR20120058417A . 2012-06-07

机译：基于优化和定制的相似度计算的文档相似度计算的机器学习方法