首页> 外国专利> System and method for unsupervised text normalization using distributed representation of words

System and method for unsupervised text normalization using distributed representation of words

机译:使用单词的分布式表示进行无监督文本规范化的系统和方法

摘要

A system, method and computer-readable storage devices for providing unsupervised normalization of noisy text using distributed representation of words. The system receives, from a social media forum, a word having a non-canonical spelling in a first language. The system determines a context of the word in the social media forum, identifies the word in a vector space model, and selects an “n-best” vector paths in the vector space model, where the n-best vector paths are neighbors to the vector space path based on the context and the non-canonical spelling. The system can then select, based on a similarity cost, a best path from the n-best vector paths and identify a word associated with the best path as the canonical version.
机译:一种系统,方法和计算机可读存储设备,用于使用单词的分布式表示来提供带噪文本的无监督归一化。该系统从社交媒体论坛接收具有第一语言的非规范拼写的单词。该系统在社交媒体论坛中确定单词的上下文,在向量空间模型中标识单词,并在向量空间模型中选择“ n条最佳”矢量路径,其中n条最佳矢量路径是该单词的邻居。基于上下文和非规范拼写的向量空间路径。然后,系统可以基于相似度成本从n条最佳矢量路径中选择一条最佳路径,并将与该最佳路径关联的单词识别为规范版本。

著录项

  • 公开/公告号US10671807B2

    专利类型

  • 公开/公告日2020-06-02

    原文格式PDF

  • 申请/专利权人 AT&T INTELLECTUAL PROPERTY I L.P.;

    申请/专利号US201816139192

  • 发明设计人 VIVEK KUMAR RANGARAJAN SRIDHAR;

    申请日2018-09-24

  • 分类号G06F40/232;G06F40/58;G06Q50;

  • 国家 US

  • 入库时间 2022-08-21 11:28:16

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号