手机站:/m

香港带宽_163企业云服务器和服务器-邮箱登陆_是什么

时间:2021-07-19 15:05编辑:淘客樊里来源:淘客樊里当前位置:主页 > CDN >

香港带宽_163企业邮箱登陆_是什么

许多第一次使用Hadoop的云用户都面临一个尖锐的问题:这是我应该期望的性能吗?客户有时会部署概念验证或将其第一个数据集转移到云存储,然后启动Hadoop和Spark工作,大数据人工智能,结果发现性能远远低于他们的预期。几乎总是可以快速有效地将性能恢复到您的部署中。

在Google Cloud,我们花了无数个小时排除Hadoop故障,并引发性能问题。通常,我们能够将问题的根源归结为一些基本的云架构错误,您可以相对快速地解决这些错误。在今天的帖子中,我们将分享诊断Hadoop和引发性能问题的十大问题。回答这十个问题可以帮助你改进Hadoop,并在Google云平台上激发工作表现。第一组问题适用于Hadoop的任何发行版,店铺淘客怎么做,包括clouddataproc,这是Google运行apachespark和apachehadoop集群的快速、简单、完全管理的云服务。第二组性能影响仅适用于运行在Google计算引擎上的非托管Hadoop发行版。

问题1:数据在哪里,集群在哪里?

我们的第一个问题实际上分为两个部分,但了解您的数据位置会对您的性能产生重大影响。你要确保你的数据区域和你的集群区域在物理上距离很近。

使用Cloud Dataproc时,你可以省略区域,让Cloud Dataproc的自动区域功能在你选择的区域中为你选择一个区域。虽然这个方便的特性可以优化集群的放置位置,但它不知道如何预测集群将访问的数据的位置。确保云存储桶与您的Dataproc区域位于同一个区域位置。

问题2:您的网络流量是否被引导?

请确保您没有任何网络规则或路由,在云存储流量到达您的集群之前,大淘客网站,通过少量VPN网关将其输送到您的集群。云存储和计算引擎之间有很大的网络管道。你不想通过将流量发送到GCP网络配置的瓶颈来限制带宽

问题3:你要处理多少输入文件和Hadoop分区?

确保您处理的输入文件不超过10000个。如果您发现自己处于这种情况,请尝试将数据合并或"并集"为更大的文件大小。

如果此文件卷减少意味着您现在使用的是更大的数据集(超过~50k Hadoop分区),则应考虑调整设置fs.gs.块.相应地调整为更大的值。

`fs.gs.块.size`是一种配置帮助作业执行拆分的参数。当与云存储数据一起使用时,它将成为一个"假"值,因为云存储不会公开实际的块大小。默认值64MB仅用于帮助Hadoop决定如何执行拆分。因此,返利机器人,如果文件大于512MB,您可能会发现手动将此值增加到1GB甚至2GB可以获得更好的性能。

问题4:永久磁盘的大小是否限制了您的吞吐量?

通常情况下,当你开始使用谷歌云时,你可能只需要一个小表就可以作为基准。这通常是一个很好的方法,只要您不选择一个大小适合如此少量数据的持久磁盘;它很可能会限制您的性能。标准持久磁盘随卷大小线性扩展。下表显示了这种规模性能的缩写,而完整的表格可以在这里找到。

,永久免费的云服务器

上一篇消息队列_庆网站大数据应用案例-建设_新注册优惠

下一篇轻量服务器_的万云-网站建设_优惠

云市场知识本月排行

云市场知识精选