丁致宇

高性能计算&并行编程

丁致宇,来自风筝之都「山东潍坊」,西南石油大学数据科学与大数据技术专业2023级本科生,目前专业排名1/65。具备扎实的高性能计算基础,熟练掌握C/C++、CUDA、MPI/OpenMP等并行编程技术。通过参与ASC世界大学生超算竞赛、IndySCC@SC24、海洋计算挑战赛、算子开发挑战赛等竞赛项目,积累了丰富的性能优化经验,包括海洋模拟并行化、深度学习算子开发、SpMV算法在异构平台的优化等实际项目。擅长在CPU/GPU/神威等异构平台上进行算法优化和性能调优,具备良好的问题分析和解决能力,具有很强的执行力。正在深入学习高性能计算相关技术,希望在该领域持续发展!

Education

西南石油大学-双一流

计算机与软件学院 数据科学与大数据技术
– Present

学业成绩:「GPA:4.1/5.0 ,专业排名:1/65」

Courses
  • 大数据平台技术及应用(98),Python(96),面向对象程序设计(95)

  • 统计学原理(93),人工智能导论(92),线性代数(91),数据结构及算法(90)

Projects

基于溢油预测模型的并行计算优化

队长 at 梦溪湖队
Competition

该项目选自2024海洋计算挑战赛决赛题目。采用自主研发的二维溢油预测模型,在保证对欧拉方法求解轨迹方程的理解以及基于向量法判断油粒子是否会吸附到岸上的正确性的情况下,利用并行计算技术对程序进行加速。

  • 承担工作:并行化:通过在原有串行程序上进行MPI与OpenMP混合并行化,通过VTune工具识别性能瓶颈,采用负载均衡技术,充分利用2节点128核计算资源,使算法执行效率得到提升。访存优化方面我们使用Fortran/C重新排列数据访问顺序,利用内存局部性提高缓存命中率。在通信优化方面我利用了非阻塞通信、打包数据通信等方式进行优化。此外我们还在在算法层面使用快速排除未交叉线段和二分查找等优化技术,快速确定油粒子轨迹与海岸线的关系

  • 项目成果:通过组委会提供算例的正确性检验,在初始算例上,相较于Baseline,取得了大约2482.14倍的加 速比,在决赛队伍中排位第五,获得全国三等奖。

  • MPI
  • OpenMP
  • 并行计算
  • Fortran
  • 科学计算

基于AlphaFold3的蛋白质结构预测推理优化项目

队员 at 西南石油大学参赛队
Competition

选自ASC25世界大学生超级计算机竞赛,针对Google DeepMind开发的AlphaFold3蛋白质结构预测模型进行推理性能优化。项目要求在保持预测精度的前提下,分别在GPU和CPU平台上最小化推理时间,处理12个不同长度的蛋白质序列样本,涉及复杂的扩散模型架构和JAX深度学习框架优化。

  • 承担工作:在NVIDIA A100 GPU和Intel Xeon CPU混合架构上完成AlphaFold3环境部署,通过cProfiler性能分析工具识别推理瓶颈,发现JAX框架的JIT编译占用大量时间。针对GPU优化实施禁用Triton GEMM编译、优化编译桶参数等策略;针对CPU平台运行时的致命性数值计算精度问题,修复负数开方导致的NaN错误。

  • 项目成果:成功实现AlphaFold3推理显著加速,在保证蛋白质结构预测confidence值与基准代码一致的情况下,GPU平台在不同序列长度下达到1.2-2.4倍的性能提升,CPU平台实现1.1-5.3倍的加速比,特别是在短序列上效果显著。

  • AlphaFold3
  • JAX
  • 蛋白质预测
  • 推理优化
  • AI4S

NAMD分子动力学仿真性能优化与科学计算

队员 at Dream Brook Team
Competition

选自IndySCC24国际大学生超级计算机竞赛NAMD赛题。项目涵盖分子动力学仿真的完整工作流程,包括水分子系统物理性质验证、蛋白质折叠自由能研究、热力学积分计算、药物膜渗透模拟等多个科学计算场景,要求在高性能计算平台上实现最佳的计算性能与科学精度平衡。

  • 承担工作:基础物理性质验证:完成水分子系统热容计算和扩散系数测定,通过对比不同截断距离和时间步长参数验证仿真精度。复杂生物系统建模:使用增强采样技术(eABF)研究十丙氨酸蛋白折叠,通过副本交换热力学积分计算谷氨酸质子化自由能差,完成跨膜药物渗透自由能剖面计算。性能基准测试:系统测试不同规模分子系统的计算性能,分析仿真速度与系统规模的关系。

  • 项目成果:通过参数调优和算法选择实现显著性能提升,验证了截断距离对计算精度和效率的权衡关系(9Å截断相比12Å减少约一半非键相互作用计算量但保持物理性质精度)。成功完成多个数百纳秒级的长时间仿真任务,包括蛋白质折叠能量势面计算和跨膜自由能剖面分析,展现了在大规模科学计算和复杂生物系统建模方面的实践能力。

  • NAMD
  • 分子动力学
  • 自由能计算
  • 热力学积分
  • 科学计算

基于新一代神威超算的PCG算法优化

项目简介: 选自第七届国产CPU 并行应用挑战赛初赛题目,针对数值仿真计算中的核心算法——预条件共轭梯度(PCG)求解器进行深度性能优化。项目基于新一代神威超级计算机的异构众核架构,通过系统性并行化改造、内存访问优化和算法融合等技术手段,在保证数值计算精度的前提下实现显著的性能提升。

  • 承担工作:并行算法设计:基于0.064核从核架构完成PCG求解器的并行化重构,实现稀疏矩阵向量乘法(SpMV)、点积运算、预条件化等核心算法的高效并行版本,使用athread库进行线程管理和同步控制。内存访问优化:设计并实现DMA(直接内存访问)操作策略,优化LDM(局部数据存储器)使用效率,通过共享内存数组和智能数据分块解决内存容量限制,减少主从核间数据传输开销。算法层面优化:完成LDU到CSR(压缩稀疏行)矩阵格式转换优化,实现多个独立操作的函数融合以减少调用开销,设计异构架构相关的归约操作和同步机制。

  • 项目成果:通过40多轮系统性迭代优化,实现了39.6倍性能提升,总运行时间从1287秒优化至32.5秒。解决了LDM容量限制导致的数据分块难题,成功实现多个矩阵运算函数的融合,显著减少了主从核间的数据传输次数和函数调用开销。

  • 神威超算
  • PCG算法
  • SpMV
  • 异构计算
  • 共享内存优化

Tecorigin深度学习算子性能优化

队长 at 梦溪湖队
Competition

选自第二届开放原子大赛Tecorigin算子开发任务挑战赛。针对tecoalConvolutionForward卷积前向算子进行系统性能优化,通过深度性能分析发现I/O瓶颈占总耗时93.1%,采用多层次优化策略包括SPM内存管理、SIMD数据重排、异步流水线等技术,在保证算法正确性的前提下实现显著的性能提升。

  • 承担工作:性能瓶颈分析:通过Perf Data工具建立完整性能画像,精确识别I/O耗时占93.1%的核心瓶颈。SPM内存优化:设计234KB SPM内存管理策略,实现双缓冲异步流水线,将输出带宽从388GB/s提升至8419GB/s(21.7倍提升)。SIMD数据重排优化:针对矩阵乘法库输出格式与标准NHWC格式的不匹配问题,设计基于floatv16向量寄存器的高效重排算法,用纯硬件SIMD指令替代传统memcpy,实现16个元素并行处理。算法层面优化:构建Cost Model数学模型指导分块策略参数自动调优,运用位运算替代除法操作,集成专用矩阵乘法库支持混合精度计算。

  • 项目成果:实现3.7倍整体性能提升,总耗时从1820.78ms优化至489.18ms。其中输出缓冲区优化贡献600.69ms,SIMD数据重排优化贡献547.88ms(30%+),Cost Model分块优化贡献181.27ms。获得全国三等奖

  • CUDA编程
  • GPU内存优化
  • SIMD
  • 深度学习算子
  • SPM内存管理

基于MLPerf的BERT模型基准测试推理性能优化

队员 at Dream Brook Team
Competition

选自IndySCC24国际大学生超级计算机竞赛MLPerf推理基准测试赛题。项目要求在GPU和CPU异构计算平台上部署和优化BERT-99模型推理性能,使用MLCommons CM自动化框架进行基准测试,涉及深度学习模型推理优化、批量处理技术和系统性能调优等关键技术。

  • 承担工作:在AMD EPYC 7713 CPU和NVIDIA A100 GPU混合架构上部署MLPerf环境,克服权限配置和文件打包等技术难题。设计并实现批处理推理优化策略,包括多输入样本批量收集、数据预处理pipeline重构、GPU并行推理加速和结果后处理优化。通过深入分析推理瓶颈,重构issue_queries方法实现批量数据准备,优化process_batch方法提升GPU利用率,实现推理性能优化。此外我还尝试使用了模型量化、混合精度推理等方法加快推理速度。

  • 项目成果:成功实现BERT推理性能显著提升,GPU推理吞吐量达到85.447样本/秒,相比CPU的3.193样本/秒提升26.8倍。通过批处理优化技术将GPU利用率从基准测试的54%提升至97%,在保持90.876%准确率的同时大幅降低推理延迟。项目成果成功提交至GitHub并通过MLCommons官方验证。

  • MLPerf
  • BERT
  • 推理测试
  • GPU加速
  • 批处理优化

Awards

ASC2025世界大学生超级计算机竞赛国际级二等奖

Awarded by ASC Student Supercomputer Challenge Committee

ASC世界大学生超级计算机竞赛,肇始发轫于2012年,是世界最大规模的超算竞赛,与德国ISC、美国SC并称世界三大超算竞赛。本届竞赛的AI赛题要求参赛队在不同计算平台上运行和优化AlphaFold3结构预测代码,考察参赛队伍对AlphaFold3推理过程的理解和优化能力。

受邀参加SC会议国际超算大赛线上赛道IndySCC24

Awarded by SC Student Cluster Competition Committee

全球超级计算大会(英文全称Supercomputing Conference简称SC)是国际超算领域的顶级会议。IndySCC是SC赛事设立的线上赛道。与三大超算竞赛之一SC线下赛道一样,需在限定条件的前提下,用48小时完成给定的计算任务,并实现尽可能高的计算性能。

2024年海洋计算挑战赛全国总决赛三等奖

Awarded by 北京并行科技有限公司&中国太平洋学会

海洋计算挑战赛(Marine Computing Challenge,简称MCC)主要内容涵盖海洋大数据处理与分析、海洋环境模拟与预测、海洋资源开发与利用、海洋灾害预警与应急响应、海洋人工智能应用等不同应用场景,综合考察参赛者在海洋应用领域的各项技能。

Tecorigin 算子开发任务挑战赛全国总决赛三等奖

Awarded by 第二届开放原子大赛-开放原子开源基金会

Tecorigin 算子开发任务挑战赛基于Teco-AL(太初加速库)统一算子库模型,使用SDAA C编程语言在太初国产GPU平台上进行算子性能优化。竞赛涵盖tecoalArgmax、tecoalActivationBackward、tecoalConvolutionForward等深度学习核心算子优化,考察参赛者在国产GPU架构下的并行计算、访存优化、向量指令优化等高性能计算技术能力。

天翼云息壤杯高校AI大赛四川省赛赛道第二名

Awarded by 中国电信集团有限公司&华为技术有限公司

天翼云息壤杯高校AI大赛算子优化赛道,基于昇腾NPU平台使用AscendC进行算子开发与性能优化。竞赛涵盖NLLLossGrad反向算子、QuantBatchMatmul+Swiglu融合算子等深度学习核心算子的高性能实现,考察昇腾910B架构下的多核并行、Cube/Vector流水线优化、内存管理等关键技术。赛题聚焦国产化异构计算底座的算子精细化优化,推动CANN生态下的高性能计算创新应用。

第十五届蓝桥杯全国总决赛三等奖

Awarded by 蓝桥杯大赛组委会&工业和信息化部人才交流中心

蓝桥杯大赛Python程序设计组,此竞赛涵盖基础算法、数据结构、动态规划、图论、字符串处理、数学计算等题型,要求在限定时间和OI赛制下完成多道编程题目,重点考察参赛者使用Python语言解决算法问题的能力。

优秀学生一等奖学金、二等奖学金

Awarded by 西南石油大学

Skills

C/C++、Fortran

熟悉CPU、GPU架构

CUDA、HIP

熟悉CUDA优化算子

OpenMP、MPI

Sunway(神威)

Languages

英语六级

CET6:478

普通话

二级甲等

英语四级

CET4:521

方言

一窍不通

Interests

旅行

  • 飞行
  • 探索
  • 酒店

摄影

  • 捕捉
  • 记录
  • 回忆