并行优化
并行优化的相关文献在1999年到2023年内共计279篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、地球物理学
等领域,其中期刊论文146篇、会议论文25篇、专利文献118085篇;相关期刊88种,包括计算机工程、计算机工程与科学、计算机工程与设计等;
相关会议19种,包括2017年全国高性能计算学术年会 、2016年全国高性能计算学术年会 、2014全国高性能计算学术年会等;并行优化的相关文献由891位作者贡献,包括伍卫国、刘松、刘钊等。
并行优化—发文量
专利文献>
论文:118085篇
占比:99.86%
总计:118256篇
并行优化
-研究学者
- 伍卫国
- 刘松
- 刘钊
- 吴泽彬
- 李志辉
- 金海
- 吕小敬
- 孙辉
- 陆忠华
- 韦志辉
- 刘冰
- 刘卫国
- 刘天石
- 刘宇
- 刘鑫
- 周杰
- 孙凝晖
- 宋娟
- 崔元桢
- 张亮
- 张志远
- 徐金秀
- 扈啸
- 朱光明
- 朱小谦
- 杨帆
- 杨超
- 柳家福
- 沈沛意
- 王倩
- 王启聪
- 陈德训
- 黄敏
- A·埃西罗
- D·余
- L·邓
- 丁杰
- 于纯妍
- 亚历山大·尼古拉耶维奇·菲利波夫
- 任小丽
- 任开军
- 任辉
- 伊格纳托夫·德米特里
- 何伟
- 何鑫宇
- 余牧溪
- 修志龙
- 修春波
- 倪裕芳
- 其他发明人请求不公开姓名
-
-
侯竞夫
-
-
摘要:
1959年,计算机科学家E.W.Dijkstra提出了Dijkstra算法。Dijkstra算法是一种解决单源最短路径问题的贪心算法,其作用主要表现在解决有向图中的最短路径问题方面。但随着科学技术的发展,Dijkstra算法的应用领域得到了极大的扩展,“最短路径”也被赋予了全新的含义,不再单单指空间中的最短距离,同样也可以用来研究各种时间、经济、能量消耗问题。但是,随着研究问题的复杂化以及所研究数据规模的逐渐扩大,传统的串行Dijkstra算法计算量大、时间复杂度较高的问题也逐渐体现出来,影响着Dijkstra算法在诸多问题中的表现。而并行化计算不仅在计算大规模数据时表现优异,也非常契合Dijkstra算法的算法思想。
-
-
窦子铮;
姚铮;
陆明泉
-
-
摘要:
为了满足无线电区域定位系统(Radio Local Positioning System,RLPS)空间基准自主建立技术高精度、高效率、高鲁棒性的要求,在交替坐标下降法(Alternating Coordinate Descent,ACD)的基础上进行了改进,提出了一种分布式的空间基准自主建立技术.通过关联节点局部优化与系统全局优化,利用坐标下降法实现了分布式高精度定位.在算法收敛约束分析的基础上,通过寻找节点拓扑独立集,提出了系统并行策略,缩短了定位耗时.同时,将测距信息与锚点信息深度融合,对优化模型进行了更新,提出了分布式的节点绝对坐标获取方法.通过仿真和实验验证,所提分布式算法在获取高精度定位结果的同时,有效缩短了定位耗时.
-
-
李泽阳;
刘钊;
朱平
-
-
摘要:
本文中针对短纤维增强复合材料汽车尾门内板,提出一种包含材料-结构并行优化的轻量化设计流程。考虑纤维分层分布特点建立材料分层模型,在此基础上提出材料参数化本构模型,在改变材料参数时可快速预测其力学性能;根据纤维取向的分布特征,提出材料参数提取和映射方法,有效提升结构分析精度;考虑材料和结构设计变量,结合Kriging代理模型和基于边界搜索的改进粒子群优化算法,提出复合材料汽车尾门内板轻量化设计流程。最终结果,在保证多工况设计要求的同时,实现了材料和结构参数的并行优化,取得减质量10.5%的轻量化效果。
-
-
马现;
王勇献;
朱小谦;
屠厚旺;
李朋;
颜恺壮
-
-
摘要:
水声传播数值计算的效率是各类水声学应用关心的核心因素之一,谱方法作为求解微分方程的一种数值方法,具有精度高、收敛速度快等优点,因此,近年来利用简正波-谱方法求解水声传播方程引起了许多学者的关注;然而,谱方法计算量更大,计算时间更长,在求解大范围海域声传播问题时,难以满足实时性的需求。因此,需要借助现代高性能计算机系统,利用并行计算和性能优化的技术,提高计算速度。首先分析程序的计算流程和热点函数,研究编译器选项优化和调用高性能数学库MKL、访存优化和精简计算等程序性能调优方法,面向众核高性能计算平台开展多线程并行加速处理。最后在天河二号众核平台上进行测试与评估,结果表明,计算深海波导算例最终改进后的程序相较于原始的程序运行时间从584 s减少到24 s,加速23.98倍,大大缩短了计算时间,验证了所用方法的有效性,对大海域水声场计算有重要意义。进一步的分析表明,这些优化与并行方法对同类型同平台的其它科学和工程数值计算问题也具有参考与借鉴意义。
-
-
王占彬;
张卫杰;
张健;
代登辉;
高玉峰
-
-
摘要:
邻近边坡的桥桩结构对滑坡失稳冲击荷载的承受力决定着它能否安全运行,因此对地震荷载下边坡失稳冲击桥桩结构的研究为桥梁工程设计和建设所迫切需要.利用光滑粒子流体动力学方法跟踪粒子特性时间变化和模拟大变形的特性,提出了地震作用边坡滑坡冲击桥桩结构的光滑粒子流体动力学算法,进行了地震加速度幅值、频谱、持时等参数对地震滑坡规律及滑坡冲击桥桩结构影响的研究,并研究了不同线程数对并行计算效率的影响.结果表明,地震加速度幅值增大会加快土体滑动速度和增大冲击体积量,对土体滑动冲击体积量的增大存在地震加速度临界值,大于该临界值时,冲击量增大幅度变大;在一定频率范围内,土体滑动速度和冲击体积量随地震反应谱峰值频率增大而增大,滑动土体对桥桩结构的冲击随之提前;地震持时增长,滑坡体的中部和后缘部分位移明显增大,冲击体积量增大;采用优化算法能够充分利用线程,大幅提高计算效率.
-
-
赵洪博
-
-
摘要:
传统的模糊挖掘算法在处理大规模数据集时表现不佳,缺乏处理长距离依赖关系的能力,而且使用比较复杂,需要手动配置相关参数。针对这些问题,提出一种自适应的并行化模糊挖掘(APFM)算法。该算法可以进行自动化参数配置,通过并行化的方法完成大规模数据集的处理,提高数据处理效率。APFM算法将建模过程也进行了优化。从整体、局部两个角度综合分析完成活动关系的处理;通过一种自底向上的方法获取流程模型的活动集合;通过计算长距离依赖因子挖掘流程模型中的长距离依赖关系。实验证明,在大规模数据集的处理场景下,APFM算法可以高效地完成数据处理,得到更加精准的流程模型。
-
-
徐声振;
田明;
倪小龙;
于信;
白素平
-
-
摘要:
介绍基于图像预处理的灰度加权算法实现跟踪激光光斑质心的基本理论和方法;采用串行程序并行化、改进存取模式、算法归约化的方法对灰度加权算法进行并行优化;设计无人机跟踪实验对基于本方法所实现的光斑跟踪的实时性和准确性进行验证。实验结果表明:对于相机采集到的1280×1024像素的光斑图片,Jetson Xavier NX在GPU-CPU异构体系结构下完成灰度加权算法,所用时间约3.4 ms,相较于中央处理器所用时间10.9 ms提升了3~4倍;考虑中央处理器读取像素及闭环控制的时间,采用GPU并行加速的光斑质心跟踪帧率可达31 FPS,脱靶量小于0.1 mrad,满足了光通信系统的要求。
-
-
谭成兵;
刘源;
徐健
-
-
摘要:
为了提高聚类挖掘的准确度和效率,采用布谷鸟优化的K-medoids算法来完成聚类,通过多节点并行聚类提高聚类效率.随机选择K-medoids聚类中心,并构建适应度函数,根据聚类样本初始化布谷鸟鸟巢位置.在布谷鸟K-medoids聚类中,可采用多运算节点并行聚类方法获取最优解,以优化聚类时间.实验证明,通过合理设置宿主发现概率阈值,布谷鸟优化的K-medoids聚类在自有数据集和UCI公开数据集聚类中均表现出良好的聚类准确率,比常用聚类算法的聚类准确率更高,采用多节点并行优化后,提高了大规模数据样本的聚类效率.
-
-
马超;
谭旭
-
-
摘要:
帕金森病是一种常见的神经性慢性疾病,由于其病因尚不明确,导致早期诊断精度低的问题,提出一种改进的优化核极限学习机方法用于帕金森病的早期诊断.研究利用混沌理论和高斯变异方法改进樽海鞘算法(salp swarm algorithm,SSA),提出一种基于进化机制的智能诊断模型ISSA-KELM.改进的SSA算法同步实现特征选择和KELM核函数的参数优化,有效地解决了模型的参数设定和最优特征选择问题,并基于OpenMP平台多线程调度处理模型,在保证模型分类精度最大化的同时进一步提高计算效率.实验结果表明,提出模型在分类精度上高于已有方法,计算效率也得到极大提高,具有较好的综合性能,验证了本模型有着很好的应用前景,有助于辅助临床医生在诊断中作出更准确的决策.
-
-
赵德明;
庞锐;
王海波
-
-
摘要:
微地震监测过程中,如何精准、实时地反演出微地震源的位置对生产应用起到了重要作用.国内外学者通过对微地震震源反演原理的研究提出很多反演方法,如纵横波时差法、模拟退火法、多个参数联合反演等,其中震源扫描叠加算法(source-scanning algorithm,SSA)由于其客观性和易用性得到广泛应用.通过研究微地震定位算法,发现震源扫描算法的计算速度有较大提升空间.以提升算法效率和现场应用的实时性需要为主要目的,提出利用二次插值方法减少算法计算量,利用MapReduce编程模型的并行化编程方法对变网格震源扫描算法进行了优化.实验结果对比发现,在一个八核CPU的移动工作站上定位一段压裂的拾取事件剖面的时间可以控制在半个小时以内,速度相比原来的方法提高约7倍,达到了现场生产实时监测的要求.
-
-
Xu Jinxiu;
徐金秀;
Li Zhonghua;
李中华;
Sun Jun;
孙俊;
Li Zhihui;
李志辉;
Zheng Yan;
郑岩
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
过渡流区气动问题的数值模拟一直是空气动力学领域的困难.本文首先介绍了在已有N-S(Navier-Stokes)解算器和DSMC(Direct Simulation Monte Carlo)方法研究基础上,采用MPC(Mouduler Particle-Continume)耦合技术建立了N-S/DSMC耦合算法,把DSMC方法和N-S方法的应用范围拓展到近连续过渡流区.然后详述了基于国家超算无锡中心的国产十亿亿次超级计算机开展的耦合算法多级并行优化技术,并首次实现了耦合算法的众核并行.测试表明,本文的进程级优化技术取得了超线性加速比;众核级优化受制于原算法特点和系统特点没有取得预期效果,但进行了探讨和分析,为N-S/DSMC耦合算法的众核并行提供了研究和分析依据,为过渡流区高超声速气动特性数值模拟研究提供了有效的途径.
-
-
Gao Yufei;
高宇飞;
Wu Baodong;
吴保东;
Zhang Jiacai;
张家才
- 《2017年全国高性能计算学术年会》
| 2017年
-
摘要:
随着功能磁共振成像(functional magnetic resonance imaging,fMRI)技术和机器学习的发展,从复杂的大脑活动中解读特定的大脑状态成为可能,并引起了广泛关注.深度学习是机器学习的一种热门方法,目前已在语音识别、图像识别等领域取得显著的成果,然而在医学图像分析领域的应用依然存在诸多挑战.针对跨被试解码困难、有效提取高维特征和计算缓慢的问题,本文提出一种深度卷积解码(deep convolutional decoding,DCD)模型.首先利用深度卷积网络对任务态fMRI(tfMRI)数据进行跨被试特征提取,然后根据提取到的高维抽象特征进行特定大脑认知状态的分类,最后对算法进行了不同平台和框架的并行优化.实验结果表明,相比传统的解码方法,该方法在进行跨被试大脑状态解码时取得更好的准确率.同时,算法的两种并行优化分别实现了5.39x和8.17x的加速比.
-
-
Guo Haoqiang;
郭浩强;
Yao Erlin;
姚二林;
Tan Guangming
- 《2016年全国高性能计算学术年会》
| 2016年
-
摘要:
在生物医学领域,随着观测显微镜不断的更新换代,图像处理的速度已经远跟不上图像产生的速度;而且为追求高质量的处理效果,图像处理算法也变得日益复杂,使得"速度矛盾"更为加剧.Structured Illumination Microscopy(SIM)是生物医学领域一个很重要的超分辨率显微技术,其中图像重构算法的运行速度是整个SIM图像处理流程的一个短板.本文的工作旨在多核平台上并行加速SIM图像重构算法.首先结合算法特点进行程序的性能分析,接着根据性能分析结果找到瓶颈,然后从粗粒度到细粒度逐层挖掘算法中潜在的并行性.通过不同的优化策略,实现了从算法级到进程级、线程级和指令级的并行优化,最终在16核intel平台上,相比单核串行算法得到了4×的加速效果.
-
-
Zhang Miao;
张淼;
Zhou Yu;
周宇;
Chen Jianhai;
陈建海;
He Qinming;
何钦铭;
Xu Shun;
徐顺;
Gong Ming;
宫明
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
"神威·太湖之光"是中国全自主研发的千万核超级计算机,推动中国早已处在世界前列的超算硬件架构水平又上了一个台阶.然而,中国在超算领域硬件强而软件弱的不平衡局面尚且存在.经过多年的发展,LQCD已成为验证高性能计算机浮点性能的基准测试工具之一,然而在神威平台上尚且没有进行过移植优化,这引起了科学工作者们的关注.本文针对LQCD在神威平台上的移植优化问题展开研究.首先,论述了国内外对LQCD在不同硬件架构上进行并行优化的发展历程.其次,通过对其热点模块Dslash的重构,实现了在神威平台上的成功移植.再次,针对申威26010芯片异构众核的架构和并行模式,实现了从核阵列异构并行、从核LDM与主存之间的DMA通讯、主核之间的MPI通讯及全局归约等操作.最后,实验测试发现了一些重要的性能瓶颈问题,为进一步优化提升整体效率奠定重要基础.同时,本文工作为国产超算平台的推广使用具有积极意义.
-
-
Lv Xiaojing;
吕小敬;
Liu zhao;
刘钊;
Jiang LingWen;
蒋令闻;
Chen Dexun;
陈德训;
Yang guangwen;
杨广文
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
三维声弹性理论及计算方法为海洋弹性浮体结构流固耦合振动声辐射与海洋声传播提供了理论基础,在海洋弹性浮体结构研究中具有很重要的影响.本文根据三维声弹性不同计算阶段计算密度特征,结合神威超算系统,完成了三维声弹性应用软件(THAFTS-Acoustic)的多级并行和优化.本文结合SW2610处理器架构,使用循环分裂、循环合并、DMA通信和计算的相互隐藏及向量化等方法,实现了三维声弹性的众核并行.实验结果表明:三维声弹性多级异构并行具有较好的MPI扩展性能和众核并行加速效果,完成多级异构并行后,核心段加速可达18倍,64进程时程序整体相较原始程序并行程序加速5.5倍,可有效发挥"神威·太湖之光"的强大计算能力,进一步支持THAFTS-Acoustic进行超大规模和更高精度的并行计算.
-
-
Qi Wu;
吴琦;
Yufang Ni;
倪裕芳;
Xiaomeng Huang;
黄小猛
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
海洋模式作为地球数值模拟中重要的组成模块,在很多领域都起到了至关重要的作用,不仅是研究海洋、河口和海岸不可或缺的科研手段,基于海洋模式搭建的预报系统还能够实时预测台风、海啸等现象.为了模拟更细粒度的海洋变化,海洋模式朝着更高的分辨率和更多的物理参数化方案发展,一般的计算机已无法满足其需求.随着散热和功耗成为通用处理器的主要瓶颈,多核、众核以及由此导致的异构已成为下一代超级计算机的发展趋势,这也为发展高分辨率海洋模式提供了坚实的基础平台.本文基于国产超级计算机"神威太湖之光",利用其异构众核体系结构的优势对区域海洋模式POM进行移植和优化,充分发挥了国产异构众核平台的特点和优势.高分辨率海洋模式swPOM在主从核协作下运行效率达到纯主核的13倍,是通用intel平台的2.8倍左右,可扩展到25万核上运行,为实时预报系统提供了保障.
-
-
HU Ziliang;
胡梓良;
MAO Rui;
毛睿
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
为应对大数据的多样性挑战,一种方法是将多种不同类型的数据抽象成一个统一的通用数据类型,进而对不同类型的数据采用相同的算法或系统进行处理.大数据泛构理念是以度量空间作为上述的通用数据类型.但是,由于度量空间中只有距离没有坐标,基于数据坐标的数据处理方法无法直接应用.一种常见的度量空间坐标化方法是选择一些数据作为参考点或支撑点,以数据到各支撑点的距离作为其坐标.在研究中,有时需要计算所有的支撑点组合的性能作为支撑点选择算法的设计参考.从n个数据中选择k个支撑点的穷举法的时间复杂度往往高达O(nk+2).为此,本文从CPU、GPU、MIC三个方面对支撑点选择穷举算法进行了并行优化加速.实验结果表明在8个计算节点和每个计算节点额外配置一块NVidia C2050GPGPU卡的情况下分别达到7倍和181.37倍的加速比,并行效率分别达到99.625%和87.625%,并在单MIC卡情况下达到2.3倍加速比.
-
-
Li Jin;
李津;
Luo Xinjie;
罗昕颉;
Hu Xiao;
扈啸;
Chen Yueyue;
陈跃跃
- 《2017年全国高性能计算学术年会》
| 2017年
-
摘要:
数字信号处理器(DSP)广泛应用于各类工业领域和军事装备领域,OpenCV是业界通用的开源图像处理算法库,但目前鲜有针对DSP平台的OpenCV移植和优化实现.本文在TI公司TMS320C6678DSP平台上实现了OpenCV的移植,生成了支持绝大多数OpenCV功能的TI6678底层支持库.在此基础上,本文深入分析了一类OpenCV库函数在TI6678硬件平台运行的计算特征和数据流,提出了一种针对这类OpenCV库函数的优化方法,将TI6678体系结构支持的DMA和Cache操作与OpenMP并行框架高效结合,实现这类OpenCV库函数在TI6678芯片上的优化和多核并行.依据本文的方法,优化改造的OpenCV库函数在TI6678上单核运行性能最多可提升3.6倍,在单核优化基础上并行改造的这类库函数8核加速比在2.55到7.06之间.
-
-
-
Zhu Zijie;
祝子杰;
Li Yunlong;
李云龙;
Zhu Xiaoqian;
朱小谦;
Lin Pengfei;
林鹏飞;
Liu Hailong;
刘海龙
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
高精度的地球系统模式对于预测恶劣气候、减少极端天气带来的负面影响具有重要意义.但是随着模式分辨率以及模拟进程数增加,I/0部分会占用较多的运行时间和资源,影响程序运行效率.本文针对地球系统模式的I/0问题,以LICOM3(LASG/IAP Climate System Ocean Model Version3)为研究对象,全面分析其I/0特点,实现了水平10公里分辨率下ADIOS(Adaptive I/0System)和MPI-I0两种并行I/0优化方案.对于ADIOS,采用POSIX方法和MPI方法提升并行输出性能,前者进程和输出文件是一一对应的关系,后者一个通信组内的进程对应一个输出文件.对于MPI-10,采用聚合I/0函数和文件视口与分布式数组相结合的方式提升I/0性能.此外,本文进一步在天河HPC2系统公网下进行大量测试,探究I/0性能的影响因素,从而提出适合地球系统模式通用的高性能I/0优化方案.实验表明:当进程数达到4K规模的时候,串行模式下I/0部分的占比高达50%;而在320-4400核数下ADIOS优化方案的I/0占比均不超过10%,写带宽最高可达56.74GB/s,MPI-IO优化方案I0占比均不超过25%.两种I/0优化方案的性能均显著优于串行I/0访问模式.