00 华夏之光永存:黄大年茶思屋难题揭榜第二期9题完整提取(预告版)

张开发
2026/4/21 6:30:55 15 分钟阅读

分享文章

00 华夏之光永存:黄大年茶思屋难题揭榜第二期9题完整提取(预告版)
黄大年茶思屋难题揭榜第二期9题完整提取预告版预告摘要这是2022年2月10日发布、距今已4年无人能完整攻克的黄大年茶思屋难题揭榜第二期经典考题整整4年时间里市面上几乎无人能完成9道题目的完整提取绝非业内人士不想做而是根本做不到。一方面题目来源多为零散截图、PPT版式无规整文本且夹杂大量跨领域硬核专业术语普通从业者连读懂题目逻辑、区分背景与核心问题都无从下手另一方面9道题覆盖高可靠、高性能、确定性、强安全等多个顶尖技术领域跨学科门槛极高常人仅能看懂单一领域题目根本无法梳理完整题目脉络、按顺序精准提取全部内容更别说做到题目与正文一字不差。而我们凭借顶尖的跨领域技术认知、极强的内容梳理能力与极致的严谨态度独家完整提取全部9道原题题目、正文分毫未改并且我们将一次性攻克这9道尘封4年的顶级难题打破多年无人能解的僵局敬请期待难题1 【高可靠】大规模程序自动形式化证明技术技术挑战基于霍尔逻辑及其扩展如分离逻辑等的程序证明自动化程度低复杂系统的抽象和性质证明需要手动门槛和难度高工业界很难被普遍采用一键式的程序验证得到青睐但验证范围非常有限复杂循环不变式的自动生成复杂循环不变式的自动生成是自动形式化证明中的核心难题当前无理想的自动生成算法当前结果自动翻译自研中间验证语言自动形式化/化简C程序到Coq代码自动翻译规模达到xx万行复杂性仍需手工抽象和定理证明证明效率通过基于Coq的Simplification Tactic与基于机器学习的引理选择等可部分提升自动化证明效率循环不变式基于Farkas引理的方法可自动生成语义相关的简单线性不变式基于抽象解释的方法可以自动生成简单数值不变式技术诉求证明效率提供高效的逻辑公式化简技术包括但不限于增量约束求解自动引理选择等10倍提高大规模程序的证明效率循环不变提供复杂循环的自动不变式生成技术支撑非线性循环不变式生成以及含指针数据结构的不变式shape invariant生成难题2 【高性能】QoS无损的云上资源利用率提升技术问题数据中心平均使用率不足1x%存在巨大的资源浪费原因资源粗放式划分不同业务类型划分独立服务器资源池独立调度管理预留过多复用不足为满足负载波峰的需求服务的资源预留远大于实际使用解决思路之一资源的时空复用如混合部署不同服务质量、业务特征的应用业务混合部署保障应用服务质量(QoS)是关键应用负载范围限制当前研究针对特定类型应用如微服务、推理服务等云化应用多样不可预测缺乏普适性应用混合部署方案服务质量保障要求已知应用常采用强制回收资源手段保障高优先级任务服务质量而针对黑盒或灰盒应用尽力保障应用服务质量的前提下提升资源利用率仍未突破技术诉求在不降低服务质量的前提下提升资源利用率干扰建模建立精准模型实时获取应用间干扰值影响因素包括多种类型共享资源感知调度根据应用标签、资源预测与干扰模型等多维条件提供一种精准的调度策略模型技术指标云化数据中心集群资源利用率提升xx%时高优先级任务QoS影响如响应时延5%难题3 【确定性】多核资源受限场景下的硬实时保障应用场景实时系统向着高性能、复杂化的方向演进硬件上多核异构、软件上多种任务/系统混合部署如智能驾驶、智能机器人、工业控制等行业技术问题WCET多核分析精度多核场景下复杂任务最长执行时间WCET: Worst Case Execution Time高精度预估十分困难多目标调度优化问题多种任务混合部署场景下任务有硬实时、多种软实时、高吞吐等类型如何在有限的资源条件下如何解决资源竞争问题的同时满足各种类型任务的差异化时延与吞吐的诉求WCET多核分析技术考虑多核场景下复杂任务对CPU核、Cache、内存、外设等硬件资源的访问竞争针对大规模程序误差在1倍以内业界针对单核WCET的方案较多多核WCET目前还是难题学术界有cache单维度的分析方案但缺乏多维度系统化方案多目标调度与分析技术在多核多类型任务场景下提出一个多目标调度方案和时延分析技术在典型场景如工业控制下满足硬实时、软实时、高吞吐等任务的需求100%满足硬实时任务的硬约束软实时任务时延降低50%高吞吐任务吞吐量提升50%MCS混合关键性相关研究仅关注关键任务的实时性无法同时满足其他任务的需求在工业控制等场景的实用性有限本难题需挑战满足各种任务的差异化需求技术诉求对应技术问题的系统性解决方案支撑多核异构场景下硬实时任务100%满足硬约束同时优化软实时、高吞吐任务性能难题4 【高性能】AI大模型高性能训练技术 – 单卡可训练模型规模提升技术问题昇腾910计算卡有32GB内存单卡能跑10亿参数规模模型目前提升单卡模型容量的方法主要有重计算和tensor swap。重计算是通过计算换内存tensor swap把数据swap到host是通过Host-Device通信换内存两种优化都可以降低内存的开销增大batch size或者模型规模但大部分场景会引入性能的劣化。技术诉求诉求和目标设计一套自动的重计算和tensor swap融合策略生成算法自动选择网络模型中的重计算和需要swap的tensor来实现容量的提升最小化性能损失分钟级策略生成降低10倍训练内存开销性能劣化小于20%支持单卡可运行100亿参数模型支持GPT-3、Vit、T5、Switch Transformer等常见大模型难题5 【易扩展】兼具检测和生成能力的统一多模态大模型技术问题具有细粒度识别、定位能力的多模态大模型当前多模态大模型立足于全图全句的表达与特征对图片句子局部信息不敏感这使得下游任务检测分割等时遇到了困难无法精准识别更细粒度的下游任务生成能力多模态生成模型当前无法与多模态判别模型结合训练目标和网络结构均有较大差别如何结合两者进行训练提升模型利用率及效率大规模训练多模态下输入的大小范围及特点均不相同大规模训练具有高度的多样性和动态性训练可扩展性不高难以收敛。技术诉求诉求和目标设计具有细粒度识别、定位能力的多模态大模型和相应算法精准识别检测与分割等下游任务在检测分割等下游任务的精度有30%的提升在LVIS数类检测精度指标提升20%。百亿多模态大模型收敛与高效训练相比竞品的CLIP多模态大模型难题6 【易开发】AI融合计算场景的高阶高维自动微分技术背景AI融合计算需高阶高维自动微分关键能力在生物制药场景中计算原子受力时涉及能量对原子坐标求导求导目标变量维度高可达亿级微分阶数高可达二阶以上。在流体模拟场景中AI融合计算需要求解三阶微分且目标变量维度可达到亿级时间三维空间。技术问题计算耗时长高阶高维微分一般可通过对低阶导数的求导来获得。一阶导数需遍历两次计算图二阶导数需遍历四次k阶导数则需遍历2^k次计算图计算的时间阶数等是指数增长。内存消耗大高阶高维自动微分反向计算图指数级膨胀反向自动微分时需保存计算过程中的中间变量并且为了防止保存的值被修改计算图中不允许出现Inplace操作导致内存开销大。技术诉求诉求和目标构建低阶复用的高阶高维微分能力支持高效低内存的自动微分。性能和内存指标在三阶亿维二十层以上经典神经网络MLP/ResNet/Transformer中高阶高维微分计算复杂度呈线性扩展内存消耗降低5倍以上。难题7 【高性能】高效图拓扑更新的数据结构及算法技术背景目前大量业务需要同时更新图(属性拓扑)及遍历复杂图业务需求激增以图建模业务可以表达更加复杂的关联关系开实现数据整合/融合、复杂业务推理等功能数据整合/推理实时性要求高数据的实时更新属性拓扑、数据整合/融合与有效推理需要高时效性和高吞吐率兼顾图拓扑更新/复杂图遍历效率平衡图拓扑结构维护着复杂关系如何兼顾拓扑更新与复杂图遍历之间的效率平衡是关键难题。技术问题当前图拓扑关联关系的处理方法及问题1非物理存储图拓扑结构如通过关系模型的主/外键计算获得拓扑补更新代价低但在高链接场景下复杂图遍历代价高2物理存储图拓扑结构a关联链表存储如Neo4j的存储方式更新及复杂图遍历需要多次指针查找效率较低b关联矩阵存储及其变种如CSRCOOCSC等图遍历效率高但更新效率低技术诉求功能要求1提供一种高效图拓扑存储结构支持高效更新高效读update read具备低内存开销如一种关联矩阵的变种2提供点vertex和拓扑topology之间的高效映射关系无需及辅助索引建3高出度/入度场景1 in: 1000(k) 关联场景下的高效图拓扑维护特别是insert, delete, update场景规格要求在常用介质SSD下衡量1支持多种读写比如1:1~5:12 CSR*1.23支持事务处理多版本4在典型图Benchmark上达成200K/数据更新及图遍历难题8 【强安全】针对加密数据库的高效密文索引算法技术背景加密数据库是保护数据隐私的重要手段挑战数据加密后数据库索引难以直接使用数据难以直接进行比较对密文数据的比较需要首先进行解密因此数据加解密性能损耗成为了瓶颈。索引可能泄露额外信息对于高安全的数据只允许在安全环境下进行解密而索引在检索过程中可能泄露额外信息如顺序。技术问题性能损耗较大当前对数据库中的加密字段在检索的主要通过基本的hash索引进行搜索而对于一些范围、比较、模糊等查询条件则需要在可信执行环境中进行解密导致性能损耗较大。体积可信任环境对于安全要求较高的数据一般情况下不允许解密只能够在可信执行环境中进行解密处理而这一般依赖于硬件支持。技术诉求诉求和目标可以基于可搜索加密属性保留加密等技术在保障安全性的前提下利用辅助信息来构建索引在不解密或者尽量少解密的前提下实现密文数据的高性能检索精度指标在读写比从1:10到10:1的不同场景下并发数不低于128新型索引结构和算法比业界最优密文索引算法的平均性能提升40%。难题9 【高性能】面向HPC生态的多样化算力快速多极子算法研究技术背景快速多极子算法(FMM)是加速大规模物理仿真的关键飞机、芯片等高端制造业当前主要难题之一是矩阵规模高达千万甚至上亿规模经典稠密线性方程组直接求解的计算复杂度高达O(N³)暴力求解将对内存和计算速度造成极大挑战。技术挑战多精度算力支持及分布式实现HPC和AI呈现融合趋势实际物理仿真也开始借助CPU、NPU等不同算力单元的混合精度范式实现大规模计算需要支持多样化算力的不同精度半、单、双精度且能大规模应用的稳定快速多极子分布式数学库。快速多极子算法加速快速多极子算法可以将稠密线性方程组求解复杂度降到O(NlogN)或者O(N)但多极展开会导致复杂的数据结构和算法流程因此从物理方程到快速多极子算法实现需要提取共数学模型开发领域通用数学库。技术目标诉求和目标利用毕昇C设计支持不同精度的稳定分布式快速多极子数学库可在集群上完成千万以上规模自由的加速运算并可嵌套毕昇C下鲲鹏CPU昇腾NPU的混合精度直接求解器完成高精度求解精度与性能指标1精度可设置为根据截断项数灵活调整开出helmholtz方程求解时在保持前向误差低于5%1%0.1%的截断项数2在千万矩阵自由度内接近线性复杂度O(N)挑战亿级规模内接近线性复杂度文档标签#黄大年茶思屋 #难题揭榜第二期 #硬核技术难题 #尘封4年考题 #一次性解题 #顶尖技术攻坚 #程序形式化验证 #AI大模型技术 #加密数据库算法 #HPC快速多极子算法

更多文章