您现在的位置: 首页> 研究主题> 图像理解

图像理解

图像理解的相关文献在1993年到2022年内共计221篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、航空 等领域,其中期刊论文151篇、会议论文15篇、专利文献288196篇;相关期刊100种,包括林业科学、中国图象图形学报、电波科学学报等; 相关会议15种,包括中国自动化学会中南六省区自动化学会第28届学术年会、第十四届全国图象图形学学术会议、2007年全国模式识别学术会议等;图像理解的相关文献由473位作者贡献,包括章毓晋、谢昭、高隽等。

图像理解—发文量

期刊论文>

论文:151 占比:0.05%

会议论文>

论文:15 占比:0.01%

专利文献>

论文:288196 占比:99.94%

总计:288362篇

图像理解—发文趋势图

图像理解

-研究学者

  • 章毓晋
  • 谢昭
  • 高隽
  • 危辉
  • 吴克伟
  • 李宁
  • 冯文刚
  • 娄联堂
  • 张旭东
  • 王建
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 张吉璇
    • 摘要: 炼钢时的吹炼阶段分为前期、中期和后期,在不同的阶段,炉口的火焰图像会受钢水含碳量、杂质等影响,呈现不同的颜色、纹理、形状等特征信息。论文通过机器视觉利用图像处理的技术,依据炼钢炉火焰边缘轮廓图像的角点数目来分析这些火焰特征,对吹炼阶段做出判断,减轻工人的工作任务和避免工人因为自身主观原因造成的误判。
    • 薛丽霞; 尹凯建; 汪荣贵; 杨娟
    • 摘要: 人-物交互检测任务的目标是定位并且识别图像中人与其周围物体的交互关系。该任务的挑战在于机器无法知道人具体和哪些物体存在交互关系,现有方法大多对人和物进行完全配对来解决这个问题。与他们不同,本文提出了一种基于关系推理的交互实例推荐网络来适应人-物交互检测任务,主要想法是利用人和物体的视觉关系中潜在的交互关系来推荐人-物对。此外,本文还设计了一个跨模态信息融合模块,对不同的上下文信息根据其对检测结果的影响程度进行融合,以此提高检测精度。本文在HICO-DET和V-COCO数据集上进行了充分的实验来验证所提出的方法,结果表明,本文方法在HICO-DET和V-COCO数据集上的mAP达到了19.90%和50.3%,分别比基准网络高了4.5%和2.8%。
    • 鲁斌; 刘丽
    • 摘要: 根据研究生阶段课程理论性、实践性、应用性、技术伦理和社会责任的要求,以计算机科学与技术、软件工程专业研究生“图像理解”课程为对象,阐述了课程面向交叉学科、关键技术和学术前沿的设计理念,设计了包含图像理解核心知识和递进式思想政治建设在内的课程目标,设置了“40%知识+60%能力”、“30%讲授+70%自修”的课程结构,提出了面向关键问题求解的“四位一体”课程教学模式,力求通过一门课程的教学活动,实现学生科学研究素养和科研报国情怀的不间断培养,实现高等院校培养高素质人才培养的目标。
    • 王雪峰; 陈珠琳; 管青军; 刘嘉政; 王甜; 袁莹
    • 摘要: [目的]针对森林碳储量估算工作量大、成本高等问题,提出一种基于林内图像简洁高效且满足精度要求的单位面积森林碳储量估计方法.[方法]林分纵断面图像隐式包含林分密度和高度2类复合信息,与林地上对应的林木碳储量直接相关.以此为突破口,首先,分析林木图像分类算法,提出在全局阈值基础上结合邻域像素属性来决定焦点像素归属,以消弱因林内光线不均对图像灰度造成的影响;然后,提出一个与林木碳储量关系紧密的参数并给出其图像计算方法;最后,以该参数为自变量,建立预估模型,实现对碳储量的估计.[结果]在以焦点像素为中心的3×3的邻域内,如果有大于6个相似像素出现,则将焦点像素归为该类,这种利用与邻域像素关系以决定当前像素归属的方法具有膨胀和腐蚀双重特性,即当焦点像素处于树体内部时容易将该点归为树体,当焦点像素处于树体外部时容易将该点归为背景,相比单纯全局阈值方法更能提高林分图像分类的准确性.碳储量预估模型方面,2参数的直线方程估计精度与3参数的逻辑斯蒂模型接近;如果在普通模型基础上增加代表海拔的虚拟变量,则能使碳储量估计精度得到较大程度提高.以兴安落叶松为例,验证基于林内纵断面图像能够实现对单位面积碳储量的较高精度估计这一假设.[结论]在林木图像提取过程中,继承对称交叉熵法泛用性强、效率高的优点,同时针对该算法容易将树体内部部分像素分割成背景、树体外部部分像素归并于树体内部的缺点,采用兼顾像素邻近关系的方法对其进行改进,取得良好结果,且该算法对林内光线不均表现出迟钝特性.在基于林内图像的碳储量预估模型方面,逻辑斯蒂模型表现出良好适应性,由于考虑海拔因素能降低估计误差,因此在实际应用中有必要分海拔段进行预估.
    • 周自维; 王朝阳; 徐亮
    • 摘要: 为了提高图像理解(Image Captioning)的预测性能,设计了一种基于"融合门"的深度神经网络模型.该"融合门"网络模型基于编码器-解码器结构设计,是卷积神经网络与循环神经网络的融合.算法首先将输入图像通过VGGNet-16网络进行卷积,得到对应的4096维输出向量,然后将卷积后的输出向量与标注语句向量合并,作为输入向量进入改进后的"融合门"网络,最后获得新的网络输出结果.上述过程按照时间步逐次迭代,最终完成网络训练.使用权威的CI-DEr评价指标来评估该"融合门"网络的预测结果,实验结果表明,该网络的CIDEr值比"Neural Talk"网络的CIDEr值提高10.56%,其他相关的评价指标也有较大幅度提高.该网络结构不但预测指标高,而且其网络参数个数比"注意力机制"网络参数少21.1%,所需要的计算机资源更少,这使得将该网络应用在边缘计算中成为可能,对图像理解成果的推广起到关键作用.
    • 章毓晋
    • 摘要: 本文是关于中国图像工程的年度文献综述系列之二十六.为了使国内广大从事图像工程研究和图像技术应用的科技人员能够较全面地了解国内图像工程研究和发展的现状,有针对性地查询有关文献,且向期刊编者和作者提供有用的参考,对2020年度图像工程相关文献进行了统计和分析.具体是从国内15种有关图像工程重要中文期刊在2020年发行的共154期上所发表的2 785篇学术研究和技术应用文献中,选取出813篇属于图像工程领域的文献,并根据各文献的主要内容将其分别归入图像处理、图像分析、图像理解、技术应用和综述评论5个大类,然后进一步分入23个专业小类(与前15年相同),并在此基础上分别进行各期刊与各类文献的统计和分析.根据对2020年统计数据的分析可以看出:图像分析方向当前得到了最多的关注,其中目标检测和识别、图像分割和边缘检测、人体生物特征提取和验证等都是研究的焦点.另外,遥感、雷达、声呐、测绘以及生物、医学等领域的图像技术开发和应用最为活跃.总的来说,中国图像工程在2020年的研究深度和广度还在继续提高和扩大,仍保持着快速发展的势头.综合26年的统计数据还为读者提供了更全面和更可信的各研究方向发展趋势的信息.
    • 陈玮; 钟书华
    • 摘要: 以德温特数据库作为数据源,选取中美日韩德作为比较研究对象,对五国图像理解技术的总体趋势进行专利计量分析,并采用技术竞争力模型评估五国的技术竞争力。结果表明,中国在专利申请数量上遥遥领先,但在专利平均被引频次上远低于美国和日本;同时,美国几乎占据了图像理解技术的全部高被引专利。得益于海量的图像理解技术专利,中国的技术强度以微弱优势领先美国成为第一;但其技术影响指数低于期待值,远低于美日两国,反映了中国的图像理解技术多而不强的特征。日韩德在整体上的技术强度落后于中美,但在某一子技术领域各有所长。日本场景恢复技术的技术影响指数远超中韩德三国;而韩国的图像感知和解释技术专利在全球占比份额较大;德国在时空技术上的技术影响指数与专利分享指数均处于全球上游水平。为增强中国在图像理解技术领域的国际竞争力,建议中国推进图像理解技术研究向纵深发展,推动图像理解技术领域各子技术的均衡发展,加强图像理解技术领域国际合作,以及创新政府服务体系,营造技术发展良好环境。
    • 田枫; 孙小强; 刘芳; 李婷玉; 张蕾; 刘志刚
    • 摘要: 图像描述是目前图像理解领域的研究热点. 针对图像中文描述句子质量不高的问题, 本文提出融合双注意力与多标签的图像中文描述生成方法. 本文方法首先提取输入图像的视觉特征与多标签文本, 然后利用多标签文本增强解码器的隐藏状态与视觉特征的关联度, 根据解码器的隐藏状态对视觉特征分配注意力权重, 并将加权后的视觉特征解码为词语, 最后将词语按时序输出得到中文描述句子. 在图像中文描述数据集Flickr8k-CN、COCO-CN上的实验表明, 本文提出的模型有效地提升了描述句子质量.
    • 李旗; 倪江南
    • 摘要: 为了全面提升采摘机器人的运行效率,本文基于计算机视觉结合光学导航的技术方式,实现控制系统的合理设计。在实际运行中,可以利用激光扫描与机器视觉相结合的方式,提升采摘的整体准确性与效率性,满足当下采摘机器人的使用需求。1计算机视觉在计算机视觉研究领域,主要可以分为图像处理、模式识别、图像识别、景物分析以及图像理解等诸多的技术环节。图1为计算机视觉图。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号