手机站:/m

人工智能是-为了实现它的全部承诺,大数据必须从头开始

时间:2021-01-09 16:24编辑:淘客樊里来源:淘客樊里当前位置:主页 > 网络与CDN >

我们创造"大数据"这个词已经过去了十多年,科技界的十年几乎是无限的。大数据现在过时了吗?简单的回答是,尽管大数据本身对某些应用程序仍有其一席之地,但重点已转移到将数据驱动的见解集成到业务应用程序中,确保它们自动化昂贵的手动操作或生成智能操作来帮助获得新客户,即"可操作的见解"。这需要与我们用于"大数据"的工具和方法不同可行的见解需要根本性的改变通常的做法是从不同的数据源收集数据,然后运行多个聚合并对其进行连接查询,以创建有意义的上下文数据集。输出数据被输入机器学习算法,试图找到共同的模式或异常。在许多情况下,这是一个反复的过程,包括反复试验,产生一个用于预测或分类的人工智能模型。数据科学家和数据工程师的团队被用于第一步,坦白地说,在大多数情况下,公司不会超越这一阶段,因为最大的挑战是将管道投入运行并将其集成到现有的业务应用程序或用例中。为数据挖掘和数据科学家提供一个数据湖,他们用R或Python语言编写了一年多的历史数据并不是最终目标。其目标是阻止欺诈、运行预测性维护和提供实时产品建议。这就需要有由应用程序开发人员编写的生产质量代码,这些代码可以扩展、处理故障并解决诸如升级和安全等操作挑战。生产系统必须将事件、新数据、历史数据和人工智能逻辑结合起来,以便在事件发生时不出现明显的延迟。当大多数组织发现大象不会飞时,他们都会碰壁。为日志分析设计的技术使用不可变的列结构,或者无组织的文本和非结构化数据,当数据不断变化并且期望立即响应时,这些技术就没有那么有用了。人们在非结构化和无索引的数据湖中添加了微批量、流式解决方案或实时或NoSQL数据库,希望它能解决问题。取而代之的是,他们创造了一种多头的野兽,这种动物是由不易驯服的部分组成的。他们花数天时间调整性能或资源和内存分配,处理"偶尔"的小插曲,幻想着美好的未来。所以让我们从头开始。我们想要的是:简单而连续的开发,然后自动测试并部署到生产系统中,而不会影响应用程序的安全性、可伸缩性或可用性。分析作为一个连续工作流的一部分,请求、事件和数据一端流入,另一端返回响应,从而推动动作或尽快显示仪表板。持续分析方法与基于云计算的微服务架构相结合,是实现这一目标的最佳途径。通过持续分析提供可操作的见解在完成数据科学的第一步——建立预测行为或信息分类的模型——之后,我们将其部署到生产系统中,并不断增强或调整其模型,以最大限度地提高准确性。我们将流程分为几个主要步骤:摄取语境化推断(预测)发球加强学习在第一步中,我们从各种来源摄取数据。这包括来自客户端的web请求、物联网传感器更新、日志、图片、音频流或来自操作数据库的更新记录流。摄取的数据包含非常不完整的视图,因为决策通常需要历史视角,例如最近一小时或一天的温度或股票行情。其他数据可能与请求用户的个人信息(如当前财务平衡或性别)和环境信息(如天气)相关。有些数据可能是非结构化的——照片、声音或文本——需要分类、清理、解码或验证。下一步是从历史和环境的角度对摄取的事件数据进行上下文化或丰富化。在传统的数据湖方法中,摄取和上下文化是使用慢速管道分批处理的。当系统对延迟敏感的客户请求做出响应时,如在路上控制车辆、应对欺诈或网络安全攻击、或在工厂管理机器时,保存原始信息不再可行。在有争议的分析中,关键是实时形成情境化的数据,也被称为丰富的特征向量,然后是即时的决策或预测,即推断。这需要索引、结构化和实时数据,以便在最短延迟的情况下搜索和更新上下文。我们不能使用传统的数据湖,它们是不可变的-不允许更新-无索引或无组织的。一旦我们有了状态信息和预测,我们就会使用灵活的方法将它们提供给用户或外部设备。如果我们能够运行最新的智能仪表盘或警报系统,我们就可以提供最新的智能警报系统。输出的内容从web用户界面、外部应用程序编程接口调用、聊天机器人程序、语音响应甚至自定义视频流的生成都有所不同。最后,我们将在结果被送达后或之后不久确定决策的准确性。例如,我们预测股票价格会上涨或者天气会变得更热,但是股票崩盘或者暴风雪袭击了城镇。我们预测一辆汽车会耗尽汽油,而事实并非如此。这些信息后来被用来改进我们的预测模型,将其分解到未来的决策中,这个过程被称为强化学习。更快的生产时间好吧,所以我们找到了一种使用连续分析将智能集成到我们的工作流程中的方法,但我们的关键挑战是快速开发服务并不断增强它们,就像云服务或软件即服务产品一样。让我们将我们的解决方案分为三个主要部分:数据服务(数据库、对象存储、消息传递)分析和人工智能服务自定义应用程序微服务如果我们不是谷歌公司,我们最好订阅云服务提供商或商业支持的数据,亚马逊网站这样我们就可以通过连续分析来专注于我们的应用程序逻辑。不幸的是,工程师们——我知道这一点是因为我自己是一名工程师——倾向于下载各种组件并将它们缝合到一个有效的解决方案中,结果当操作规模扩大时,却发现自己无法诊断并确保生产管道中的服务安全。DIY的方式会大大减慢我们的速度,我们最好还是跳过这一次彻底革新的尝试,尤其是当我们迫不及待地提供新的商业服务时。最好的方法是采用云公司的最佳实践,并采用云本地架构。简而言之,cloudnative解决了应用程序的耐久性、弹性和连续交付。它利用微服务,即小的无状态应用程序片段,这些应用程序片段是使用Docker或Kubernetes容器编排软件部署和自动缩放的,以解决服务弹性和弹性的问题。多层微服务是更大和不断发展的应用程序的一部分。微服务使用云本地存储和数据库来存储状态。您的应用程序应该分解为在分析框架或服务中运行的功能性微服务,例如Spark或TensorFlow,或者使用Python数据科学工具。在现代集群(如Kubernetes)上运行这些容器化的服务非常重要,这些集群提供管理、安全、故障恢复、自动伸缩等。在很多情况下,你可以使用预先集成的人工智能服务,并通过API访问它们——例如,通过API上传图片并获取关于人脸的信息,或者发送语音记录并取回自然语言模型。未来我们将看到API和函数市场。编写自己的应用程序,并处理持久性、自动伸缩性、监视、安全性和版本控制(更不用说管理底层服务器基础设施了)可能是一项漫长而令人沮丧的任务。这就是无服务器函数的用武之地。无服务器平台允许我们编写与平台相关的代码,它将自动构建、测试、部署、安全和自动扩展。无服务器可大大节省成本。更重要的是,它使我们能够更快地开发服务。有云提供商的无服务器框架,如AWS Lambda或Azure Functions,以及一些多云和开源的无服务器框架,如OpenWhisk、nuclio和OpenFaas。总之,静态数据和数据湖存储了大量无用的数据。关注一个能够持续使用数据来提高业务底线的模型:获取更多客户,确保他们满意并回来,并通过自动化降低运营成本。将一个持续的分析流程与云计算原生技术和无服务器技术相结合,是在较短时间内以较低的风险和资源交付更智能的业务的有效方式。yaronhaviv是数据分析平台初创公司iguazio的创始人和首席技术官。他为siliconagle写了这篇评论。图片:TeroVesalainen既然你来了…点击订阅我们的YouTube频道(见下文),显示您对我们使命的支持。我们的订户越多,YouTube就越会向你推荐相关的企业和新兴技术内容。谢谢!支持我们的使命:>>>>>立即订阅我们的YouTube频道。……我们还想告诉你我们的使命,以及你如何帮助我们完成它。SiliconANGLE Media Inc.的商业模式是基于内容的内在价值,而不是广告。与许多在线出版物不同,

上一篇人工智能怎么样-IBM推出了一个实验性的分析服务来理解物理世界

下一篇云端云服务器-Robin Systems为大数据工作负载更新其云平台

养花知识本月排行

养花知识精选