作者:刘永波; 李亚琼; 周博; 李守超; 宋云奎机器学习模型训练资源调度云计算
摘要:在云计算环境下,并发训练多机器学习模型会造成严重的共享集群资源竞争,影响执行效率。针对该问题,论文提出一种面向分布式机器学习的云计算资源调度方法。根据历史监测数据建立迭代次数与模型质量提升间的模型,在线预测资源分配对模型质量提升的影响,制定资源优化调度策略,并且设计了资源调度框架。实验结果表明,所提出的方法能够快速适应任务和负载的动态变化,实现多个模型训练作业的整体性能最大化。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社