Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors

机译：通过字典学习实现变压器可视化：作为变压器因素线性叠加的上下文嵌入

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Transformer networks have revolutionized NLP representation learning since they were introduced. Though a great effort has been made to explain the representation in transformers, it is widely recognized that our understanding is not sufficient. One important reason is that there lack enough visualization tools for detailed analysis. In this paper, we propose to use dictionary learning to open up these 'black boxes' as linear superpositions of transformer factors. Through visualization, we demonstrate the hierarchical semantic structures captured by the transformer factors, e.g.. word-level polysemy disambiguation, sentence-level pattern formation, and long-range dependency. While some of these patterns confirm the conventional prior linguistic knowledge, the rest are relatively unexpected, which may provide new insights. We hope this visualization tool can bring further knowledge and a better understanding of how transformer networks work.

机译：自引入Transformer networks以来，它已经彻底改变了NLP表示学习。虽然已经做出了很大努力来解释变形金刚中的代表性，但人们普遍认为我们的理解是不够的。一个重要原因是缺乏足够的可视化工具进行详细分析。在本文中，我们建议使用字典学习来打开这些“黑匣子”，作为变压器因素的线性叠加。通过可视化，我们展示了变换因子所捕获的层次语义结构，例如。。词汇层面的多义消歧、句子层面的模式形成和长期依赖。虽然其中一些模式证实了传统的先验语言知识，但其他模式则相对出乎意料，这可能会提供新的见解。我们希望这个可视化工具能带来更多的知识，更好地理解变压器网络是如何工作的。

著录项

来源
《Workshop on Knowledge Extraction and Integration for Deep Learning Architectures》|2021年|1-10|共10页
会议地点
作者
Zeyu Yun; Yubei Chen; Bruno A Olshausen; Yann LeCun;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. First results from a 760-GW linear transformer driver module for Z-pinch research [J] . Lin Chen, Wenkang Zou, Jihao Jiang, 极端条件下的物质与辐射（英文） . 2021,第004期
2. Review of solid-state linear transformer driver technology [J] . Weihua Jiang 极端条件下的物质与辐射（英文） . 2018,第004期
3. Optical Diagnostics of Multi-Gap Gas Switches for Linear Transformer Drivers [J] . SHENG Liang, LI Yang, SUN Tieping, 等离子体科学和技术（英文版） . 2014,第007期
4. Influences of Switching Jitter on the Operational Performances of Linear Transformer Drivers-Based Drivers [J] . 刘鹏, 孙凤举, 魏浩, 等离子体科学和技术（英文版） . 2012,第004期
5. Transformer based contextualization of pre-trained word embeddings for irony detection in Twitter [J] . Jose Angel Gonzalez, Lluis-F. Hurtado, Ferran Pla Information Processing & Management . 2020,第4期

机译：基于变压器的预训练Word Embeddings的上下文化，在Twitter中进行讽刺检测
6. Transformer based Deep Intelligent Contextual Embedding for Twitter sentiment analysis [J] . Usman Naseem, Imran Razzak, Katarzyna Musial, Future generation computer systems . 2020,第Deca期

机译：基于变压器基于Twitter情感分析的深度智能语境嵌入
7. Joint image fusion and super-resolution for enhanced visualization via semi-coupled discriminative dictionary learning and advantage embedding [J] . Li Huafeng, Yang Moyuan, Yu Zhengtao Neurocomputing . 2021,第Jana21期

机译：通过半耦合辨别词典学习和优势嵌入增强可视化的联合图像融合和超分辨率
8. RETRA: Recurrent Transformers for Learning Temporally Contextualized Knowledge Graph Embeddings [C] . Simon Werner, Achim Rettinger, Lavdim Halilaj, European Semantic Web Conference . 2021

机译：retra：用于学习时间上上文化知识图形嵌入的反复变压器
9. Power transformer monitoring using embedded MEMS gas sensor. [D] . Bhat, Krishna Prasad. 2011

机译：使用嵌入式MEMS气体传感器监控电源变压器。
10. A Lightweight 1-D Convolution Augmented Transformer with Metric Learning for Hyperspectral Image Classification [O] . Xiang Hu, Wenjing Yang, Hao Wen, 2021

机译：一种轻量级1-D卷积增强变压器具有高光谱图像分类的度量学习
11. FragNet, a Contrastive Learning-Based Transformer Model for Clustering, Interpreting, Visualizing, and Navigating Chemical Space [O] . Aditya Divyakant Shrivastava, Douglas B. Kell 2021

机译：Fragnet，一种基于对比的学习的变压器模型，用于聚类，解释，可视化和导航化学空间
12. Temporally Shaped Current Pulses on a Two-Cavity Linear Transformer Driver System. [R] . Savage, M. E., Mazarakis, M. G., LeChien, K. R., 2011

机译：双腔线性变压器驱动系统的时间形状电流脉冲。

Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors

摘要

著录项

相似文献

相关主题

期刊订阅