摘要

本发明实施例提供的一种云环境中科学工作流数据集的存储方法,通过获取科学工作流任务执行产生的数据集后,根据数据集之间的依赖关系,得到数据集的依赖关系图,基于数据集在依赖关系图中的不同的存储状态,确定多个存储策略,计算每一个存储策略对应的存储成本;基于依赖关系图中的起始数据集至目标中间数据集之间的中间数据集的依赖关系,计算在每个存储策略下生成目标中间数据集的计算成本;针对每个存储策略,基于该存储策略对应的存储成本以及计算成本,计算该存储策略的总成本,确定总成本最小的存储策略为最优存储策略,按照最优存储策略对应的数据集的存储状态,对数据集进行存储,因此本发明实施例可以节省云环境中科学工作流存储数据集的代价。