世界先进制造技术论坛AMT—领先的高科技先进制造产业服务平台

发表于 2018-12-4 09:29:51 | 显示全部楼层 |阅读模式

数据的爆炸式增长掀起了大数据的研究热潮,越来越多的应用领域涉及到大数据的处理和存储,其所蕴藏的科学价值和商业价值逐渐体现。为了挖掘大数据中隐藏的知识,各种大数据系统应运而生,例如Hadoop、MapReduce、Hive、Spark等。如何客观地评价众多的大数据系统以及从中选择适合自身需求的系统成为学术界和工业界普遍关心的问题,大数据工业界和研究社区迫切需要一套公认的大数据评测基准。

Jim Gray认为:特定领域的评测基准应选择典型应用,并满足领域内应用的多样性。据此他进一步提出了一套成功的评测基准需要满足的4个条件:系统相关性、可移植性、可扩展性和简单。其中,系统相关性是指能够评测领域相关的系统性能,包括系统的峰值性能,性价比等;可移植性是指评测基准能够移植到不同的平台上,易于在不同的系统和架构上实现;可扩展性是指能够适应不同的系统规模;简单是指评测基准易于理解,评测结果具有可靠性。

参考Gray提出的4条标准,并结合大数据海量、高速、多样的特性,我们提出了针对大数据领域的评测基准需要满足的需求。

可代表性

大数据领域具有非常广的覆盖范围,信息时代的来临使得越来越多的应用领域涉及到大数据的处理和存储,因此一个完整而全面的评测基准不可能一蹴而就。如何尽可能提高负载覆盖度又不失评测的简易性是很大的挑战,这也就要求评测基准具有领域代表性。
我们认为大数据领域的代表性主要体现在3个方面:

①代表性负载。

众所周知,目前应用领域极其繁多,领域之间有一定的共有特性,但每个领域有其独特性,因此应用领域和负载的代表性在一定程度上也就决定了评测基准的代表性;

②代表性数据。

大数据领域与传统数据库等领域的一个显著区别即是数据类型多元化,传统的结构化数据不再占据主导地位,半结构化和非结构化数据爆炸性增长,因此评测基准不能忽略复杂而多样的数据类型;

③代表性软件栈。

数据迅猛增长催生了众多的大数据处理和存储系统,然而不同的软件栈对大数据负载的行为特征具有很大的影响,因此大数据评测基准需要涵盖代表性软件栈。

可移植性

大数据评测基准不仅需要能够纵向地评测大数据系统,而且需要能够对不同的系统进行横向的对比。这就要求相同的负载能够提供不同的实现方式,评测基准能够便利地移植到其他平台。为了使不同的实现方式具有公平的可比性,针对不同平台的实现,需要具有相同的输入和输出,以及相同的算法处理逻辑。如今,一系列针对大数据处理和存储的开源产品被发布,例如MapReduce、Spark等,所以在评测基准的实现过程中需要考虑基于这些不同的软件栈的实现。

可扩展性

大数据评测基准需要提供可扩展的数据集和负载。大数据的一个显著特征即是数据量大,单一节点的存储已逐步转变成分布式存储,因此评测基准所提供的数据和负载需要适应不同规模的平台。然而如今大多数的大数据持有者视数据为重要的商业机密,因而能够提供符合真实数据特性的可扩展数据集是大数据评测基准重要而基本的需求。

可理解性

评测基准需要具有简易性,易于理解,并易于部署和评测,同时评测结果能够指导系统的评价、改进和优化。然而,大数据系统本身非常复杂。仅仅从简单性的角度来选择典型负载,可能会使基准程序丧失代表性。因此,我们用可理解性来取代原有的简单性需要。可理解性有3点含义:能从基本操作单元和负载模式的角度理解典型负载;评测结果需要简单直观,评测人员能够根据负载的特性分析结果的合理性并判断系统的瓶颈或者优劣;评测结果需要具有稳定性,其结果必须是可靠的并且可重现的。

大数据系统的蓬勃发展催生了大数据基准测试的研究,如何公正地评价不同的大数据系统以及怎样根据需求选取合适的系统成为了热点问题。大家在使用的过程中,不妨也动脑筋想一想,为什么选择这些系统?按照评测的基准还有哪些系统也值得了解?这样你的编程之旅才不容易迷茫。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 |

本版积分规则

主题 682 | 回复: 699

QQ|联系我们|法律声明|用户协议|AMT咨询|商务合作|会员入驻|积分充值|积分商城|积分奖励规则|TradEx全球购|加入QQ技术群|添加企业微信|加入微信技术群| 世界先进制造技术论坛 ( 沪ICP备12020441号-3 )

GMT+8, 2024-5-15 11:34 , Processed in 0.030318 second(s), 34 queries , Redis On.

论坛声明:《世界先进制造技术论坛》属纯技术性非赢利性论坛,请勿发布非法言论、非法广告等信息,多谢合作。
本论坛言论纯属发表者个人意见且会员单独承担发表内容的法律责任,与本论坛立场无关;会员参与本论坛讨论必须遵守中华人民共和国法律法规,凡涉及政治言论、色情、毒品、违法枪支销售等信息一律删除,并将积极配合和协助有关执法机关的调查,请所有会员注意!
本论坛资源由会员在本论坛发布,版权属于原作者;论坛所有资源为会员个人学习使用,请勿涉及商业用途并请在下载后24小时删除;如有侵犯原作者的版权和知识产权,请来信告知,我们将立即做出处理和回复,谢谢合作!

合作联系: 双日QQ客服:3419347041    单日QQ客服:3500763653    电话021-37709287    合作问题投诉:QQ:2969954637    邮箱:info@amtbbs.org    微信公众号:AMTBBS

 

快速回复 返回顶部 返回列表