将变换器模型(Transformer)和联合遮盖语言模型(Unified Language Model Pre-training for Natural Language Understanding and Generation,UniLM)结合构建了序列学习模型,获取土木建筑信息领域的句子级语义信息,自动解码生成对应的自然语言问题。该模型是一个序列到序列模型,将大量开放域和土木专业领域中语料的语法和句法规则迁移到土木建筑信息问答领域,结合该领域内的少量人工标注数据集获取语义信息。通过对Transformer中不同模块进行随机采样分层训练,优化后生成良好的领域目标问句。实验结果表明,文章模型不需要人为指定规则和设置复杂的自然语言处理管道,在机器评价和人工评价指标中都展现出更好的语义理解能力,最终生成高质量的土木建筑信息领域问题。
展开▼