手机站:/m

北京大数据公司有哪些-了解Hadoop的局限性以实现其全部价值

时间:2021-01-09 00:04编辑:淘客樊里来源:淘客樊里当前位置:主页 > 网络与CDN >

Hadoop早期采用者面临的一个主要问题是……现在怎么办?尽管所有关于Hadoop的兴奋都是有道理的,但许多人并不完全理解它的局限性(比如在集群中连接和链接数据的困难),因此没有充分发挥Hadoop的潜力。你早期的Hadoop采用者开始意识到,如果单独使用,Hadoop不是一个数据集成解决方案。Hadoop有三个核心挑战。如果没有附加组件或解决方案,Hadoop无法:连接非结构化和结构化内容;发现并充分利用不同数据集中和不同数据集之间的复杂关系;以及组织数据以支持可伸缩的搜索。企业需要直面这些挑战,以便最大限度地利用其数据。让我们依次看一看。无法连接非结构化和结构化内容非结构化数据是电子邮件、报告、文档、日志文件和其他来源中的自由格式文本,它们构成了越来越多的大数据源。这种密集的数据缺乏将其与传统业务应用程序链接的结构化上下文。Hadoop能够存储这些信息,甚至可以通过自然语言处理或像Solr这样的文本搜索应用程序进行搜索。但是,它无法从这些数据中提取有意义的定义,并将非结构化实体链接到在其他结构化应用程序中找到的结构化概要文件。非结构化数据需要在Hadoop之上添加额外的分析功能。存储数据是不够的。非结构化数据和结构化数据之间需要及时的链接和分析,以便对海量信息进行理解。分析师和数据科学家需要能够快速找到数十亿条记录和内容的相关信息。公司没有通过实施弥合差距和最大限度地利用数据集的分析应用程序来充分挖掘数据的潜力。从不同的数据集中发现复杂的关系由于进入业务系统的数据量大且复杂,很难对数据集进行管理和解释。这些复杂的数据集只会随着物联网继续增长。附加解决方案对于理解大量数据并将其用于有意义的用途以使公司受益是必要的。如果数据位于Hadoop中,并且没有被分析以找到不同数据集之间的相关性,那么它就没有多大用处。相关分析允许用户在他们的数据中发现价值,并证明或否认某些假设。这些发现将使企业在未来做出更好的决定和解释。组织数据和生成可伸缩搜索需要较长的开发时间手动处理来有效地组织存储在Hadoop中的大量和各种数据是完全不可能的。需要先进的技术来扩展和组织集群中的数据,以便以高效的方式定位相关数据。需要对数据进行实时分析和组织,以便快速准确地进行业务分析。Hadoop应该与快速实体分析软件配合使用,将结构化和非结构化数据组织成现实世界中的实体及其关系,从而实现可操作的决策。Hadoop中的搜索引擎只与存储在其中的数据一样好,而且它们缺少连接点以呈现清晰图像的键。这些引擎需要配备密钥,以便充分利用所有数据,并在需要时为分析师提供所需的答案。投资于适当的高级分析应用程序以提供这些键,可以加快查询处理速度并增加业务价值。Hadoop技术和应用程序有助于加速数据的实时分析,但这需要Hadoop平台的额外价值。认识到Hadoop提供的限制是朝着更好的数据管理和分析迈出的第一步。Hadoop是一个平台,实体分析应用程序可以在这个平台上跨域将点连接到人、事件、位置和产品的真实视图中。获得一个能够建立联系和关系的工具是很重要的-如果组织要了解业务环境的复杂性并改进其模型和细分,从而提高投资回报率和成功的商业决策,这一步至关重要。关于作者詹妮弗·里德在金融服务和政府领域拥有超过20年的专业技术和背景。她是Novetta Solutions,LLC的产品管理总监。她负责为Novetta Entity Analytics定义和实施产品战略,建立和维护与客户、合作伙伴和分析师的关系,寻找新的市场机会,并监督整体战略,产品的技术和营销方面。詹妮弗以前是IBM InfoSphere MDM的高级产品经理。既然你来了…点击订阅我们的YouTube频道(见下文),显示您对我们使命的支持。我们的订户越多,YouTube就越会向你推荐相关的企业和新兴技术内容。谢谢!支持我们的使命:>>>>>立即订阅我们的YouTube频道。……我们还想告诉你我们的使命,以及你如何帮助我们完成它。SiliconANGLE Media Inc.的商业模式是基于内容的内在价值,而不是广告。与许多在线出版物不同的是,我们没有付费墙或横幅广告,因为我们想让我们的新闻保持开放,不受影响,也不需要追逐交通。那个新闻、报道和评论SiliconANGLE——以及现场报道,我们的硅谷工作室和cube环球巡演的视频团队提供的未经剪辑的视频需要大量的辛勤工作、时间和金钱。保持高质量需要赞助商的支持,他们与我们的无广告新闻内容的愿景一致。如果你喜欢这里的报道,视频采访和其他无广告内容,请花点时间看看我们的赞助商支持的视频内容样本,在推特上表达你的支持,然后继续回到SiliconANGLE。

上一篇大数据技术-要发掘大数据的潜力,就要学会使用快速数据

下一篇云服务器购买-neo4j3.4为大规模图形处理带来了新的分析特性

养花知识本月排行

养花知识精选