最高 3 倍无损提速hongkongdoll xxx,用数学运筹帷幄求解器寻找最优解更快了!
近日,中科大王杰教育团队(MIRA Lab)和华为诺亚方舟实验室(Huawei Noah ’ s Ark Lab)长入建议了分层序列 / 辘集模子,并竖立了基于该分层模子的智能决策覆按行动。
权贵耕作搀杂整数线性运筹帷幄(MILP)求解器求解成果,取得最高 3 倍无损提速。
数学运筹帷幄求解器因其热切性和通用性,被誉为运筹优化领域的"光刻机"。
其中,MILP 求解器是数学运筹帷幄求解器的重要组件,可建模无数内容应用。
打个比喻,MILP 求解器就像一个智能助手,能通过数学行动和算法匡助寻找最优解。
在更复杂的情况下,比如物流诊治、分娩接洽、金融投资等领域,MILP 求解器不错匡助决策者在复杂敛迹条款下作念出最优弃取。
现在论文发表在东说念主工智能顶级期刊IEEE TPAMI 2024。
配景与问题先容
割平面(cutting planes, cuts)在加快求解搀杂整数线性运筹帷幄(MILP)问题中通晓着至关热切的作用。自上世纪 50 年代以来,割平面法看成求解 MILP 问题的宏大用具,已成为学术界和工业界世俗照应的要点。经过多年的本质考据,割平面法已被公合计快速求解 MILP 问题的重要时间。
其中割平面弃取(cut selection)打算是:
弃取待选割平面的允洽子集以无损提高求解 MILP 的成果。
据先容,割平面弃取在很猛进程上取决于两个子问题:
( P1 ) 应优先选哪些割平面
( P2 ) 应弃取若干割平面
照应东说念主员合计,尽管好多当代 MILP 求解器通过手动假想的启发式行动来处理 ( P1 ) 和 ( P2 ) ,但机器学习行动有后劲学习更有用的启发式行动。
然而,好多现存的学习类行动侧重于学习应该优先弃取哪些割平面,而忽略了学习应该弃取若干割平面。
此外,照应东说念主员从无数的实验适度中发现又一子问题对求解 MILP 的成果有要紧影响。
( P3 ) 应该优先弃取哪种割平面规则
针对上述挑战,照应东说念主员建议了一种新的分层序列 / 辘集模子 ( Hierarchical Sequence/Set Model,HEM++ ) ,并构建了基于该模子的强化学习框架来学习割平面弃取战略。
底下具体伸开。
割平面先容
搀杂整数线性运筹帷幄(MILP)是一种可世俗应用于多种内容应用领域的通用优化模子,举例供应链惩办、排产运筹帷幄、运筹帷幄诊治、工场选址、装箱问题等。
范例的 MILP 具有以下姿色:
给定上述问题,丢弃其通盘整数敛迹,可得到线性运筹帷幄随性(linear programming relaxation,LPR)问题,它的姿色为:
由于随性问题膨大了原始问题的可行域,因此可有
,即LPR 问题的最优值是原 MILP 问题的下界。
给定随性问题,割平面是一类正当线性不等式,这些不等式在添加到线性运筹帷幄随性问题中后,可减弱 LPR 问题中的可行域空间,且不去除任何原 MILP 问题中任何整数可行解。
割平面弃取先容
MILP 求解器在求解 MILP 问题经由中可生成无数的割平面,且生成的割平面会在连气儿的回合中束缚向原问题中添加割平面。
具体而言,每一趟合中包括五个才能:
( 1 ) 求解现时的 LPR 问题;
( 2 ) 生成一系列待选割平面;
( 3 ) 从待选割平面中弃取一个合适的子集;
( 4 ) 将弃取的子集添加到 ( 1 ) 中的 LPR 问题,以得到一个新的 LPR 问题;
( 5 ) 轮回肖似,基于新的 LPR 问题,插独揽一个回合。
将通盘生成的割平面添加到 LPR 问题中可最猛进程地减弱该问题的可行域空间,以最猛进程提迂回界。
然而,添加过多的割平面可能会导致问题敛迹过多,增多问题求解狡计支出并出现数值不深远问题。
因此,照应者们建议了割平面弃取,它的打算是弃取候选割平面的相宜子集,以尽可能耕作 MILP 问题求解成果。
启发实验:割平面添加规则
照应东说念主员假想了两种割平面弃取启发式算法hongkongdoll xxx,离别为 RandomAll 和 RandomNV(详谅解论文第 3 章节)。
它们齐在弃取了一批割平面后,以马上规则将弃取的割平面添加到 MILP 问题中。
适度清晰,选用褪色批割平面的情况下,以不同的规则添加这些选用割平靠近求解器求解成果有极大的影响(详备适度分析谅解论文第 3 章节)。
行动先容
据先容,在割平面弃取任务中,应该弃取的最优子集是不成事前赢得的。
不外,照应东说念主员不错使用求解器评估所选纵脱子集的质料,并以此评估看成学习算法的反映。
因此,团队行使强化学习(Reinforcement Learning, RL)范式来试错学习割平面弃取战略。
照应东说念主员详备表现了建议的RL 框架。(举座的 RL 框架图如图 2 所示)
最初,他们将割平面弃取任务建模为马尔科夫决策经由(Markov Decision Process, MDP)。
然后,详备先容了建议的分层序列 / 辘集模子 HEM++。
临了,推导可高效覆按 HEM++ 的分层近端战略优化(hierarchical proximal policy optimization, HPPO)行动。
底下逐个伸开。
问题建模:序列决策建模
景象空间:由于现时的 LP 随性和生成的待选 cuts 包含割平面弃取的中枢信息,照应东说念主员通过(� � � � � �,� �,
)界说景象 s。
这里� � � � � � 示意现时 LP 随性的数学模子,� � 示意候选割平面的辘集,
示意 LP 随性的最优解。
为了编码景象信息,照应东说念主员凭证(� � � � � �,� �,
)的信息为每个待选割平面假想 13 个特征。
也便是说,通过一个13 维特征向量来示意景象 s。(具体细节请谅解文第 5 和第 6 章节)
动作空间:为了同期探讨所选 cut 的比例谦和序,照应东说念主员以候选割平面辘集的通盘有序子集组成的辘集� � 和弃取 cut 的比例空间 [ 0,1 ] 的直积,即动作空间� �HEM++= � � x [ 0,1 ] 。
奖励函数:为了评估添加 cut 对求解 MILP 的影响,可通过求解时间,原始对偶粗心积分(primaldual gap integral),对偶界耕作(dual bound improvement)。
滚动函数:滚动函数给定现时景象 s 和选拔的动作� �,输出下一景象 s ’。割平面弃取任务中滚动函数隐式地由求解器提供。
更多建模细节请谅解文第 5 和第 6 章节。
战略模子:分层序列 / 辘集模子
如图所示,照应东说念主员将 MILP 求解器建模为环境,将 HEM++ 建模为智能体,底下详备先容所建议的 HEM++ 模子。
不错看出,HEM++ 由上基层战略模子组成。上基层模子离别学习表层战略(policy)π ℎ和基层(policy)π � �。
最初,表层战略通过展望允洽的比例来学习应该弃取的 cuts 的数目。
假定景象长度为 N,展望比率为 k,那么展望应该弃取的 cut 数为,其中示意向下取整函数。
照应东说念主员界说
。
其次,基层战略学习弃取给定大小的有序子集。
基层战略不错界说 S x [ 0,1 ] → P(� �),其中示意给定景象 s 和比例 k 的动作空间上的概率散布。
具体来说,照应东说念主员将基层战略建模为一个序列到序列约略辘集到序列模子(sequence/set to sequence model, sequence/set model)。
临了,通过概率乘法定理可得分层 cut 弃取战略,即:。
覆按行动:分层近端战略优化行动
照应东说念主员用 [ 0,1 ] x � � 示意动作空间,用示意分层割平面战略。
最终推导出HPPO,现时战略和旧战略的概率比示意如下:
为了幸免过大的战略更新,照应东说念主员对此概率比进行剪辑得到 rclip。
进一形势,给定上风函数的臆度器,优化打算为:
临了,分层战略梯度如下:
具体细节请谅解文第 6 章节。
实验先容
实验共有五个主要部分。
实验 1. 在 3 个东说念主工生成的 MILP 问题和来自不同应用领域的 6 个具有挑战性的 MILP 问题基准上评估新行动;
实验 2. 进行消融实验,以提供对 HEM++ 的深入知悉;
实验 3. 测试 HEM++ 针对问题界限的泛化性能;
实验 4. 可视化新行动与基线所弃取的割平面特色;
实验 5. 将新行动部署到华为内容的排产运筹帷幄问题中,考据 HEM++ 的优胜性;
底下仅简便先容下实验 1,更多实验适度,可参谅解论文第 8 章节。
照应东说念主员领导说念,论文中申诉的通盘实验适度齐是基于 PyTorch版块代码覆按得到的适度。
如图所示,在多个开源数据集和工业数据集上对比了 HEM++ 和着手进开源求解器 SCIP 基线。
实验适度清晰,HEM++ 可在保抓求解精度不变的情况下,大幅耕作求解成果。
据团队先容,关系时间和本事整合入华为天筹(OptVerse)AI 求解器,助力耕作天筹 AI 求解器竞争力,成为其首批重要 AI 脾气。
天筹 AI 求解器将运筹学和 AI 相勾通,针对线性和整数模子寻找最优解,以通用姿色形容问题,高效狡计最优决策,助力企业量化决策和密致化运营。
天筹 AI 求解器曾获宇宙东说念主工智能大会最高奖"超卓东说念主工智能引颈者" SAIL 奖,并在外洋巨擘数学优化求解器榜单中的 5 项分量级榜单登上榜首。
淫乱电影关系算法整合入华为 MindSpore ModelZoo 模子库,助力国产开源生态。
华为 MindSpore 是一个全场景深度学习框架,打算是杀青易竖立、高效本质、全场景掩盖三大打算。
更多细节宽宥查阅原论文。
本论文作家王治海是中国科学时间大学 2020 级硕博连读生,师从王杰教育,主要照应地方为强化学习与学习优化表面及行动,东说念主工智能运转的芯片假想等。他曾以第一作家在 TPAMI、ICML、ICLR、AAAI 等顶级期刊与会议上发表论文六篇,一篇入选 ICML 亮点论文(前 3.5%),曾获华为优秀实习生(5/400+)、国度奖学金等荣誉。
华为 MindSpore ModelZoo 模子库:
https://gitee.com/mindspore/models/tree/master/research/l2o/hem-learning-to-cut
论文地址:
https://ieeexplore.ieee.org/document/10607926
代码地址:
https://github.com/MIRALab-USTC/L2O-HEM-Torch
数据地址:
https://drive.google.com/drive/folders/1LXLZ8vq3L7v00XH-Tx3U6hiTJ79sCzxY
会议版块论文(ICLR 2023):
https://arxiv.org/abs/2302.00244
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 技俩主页运动,以及磋议方法哦
咱们会(尽量)实时申诉你
点这里� � 讲理我,紧记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日相逢 ~