加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

谈谈大数据技术现状和分类

发布时间:2022-05-24 15:40:17 所属栏目:大数据 来源:互联网
导读:随着社交媒体、物联网和多媒体应用等各种来源产生的海量数据的诞生,大数据已经成为一个重要的研究领域。大数据在许多决策和预测领域发挥了关键作用,如推荐系统、商业分析、医疗保
          随着社交媒体、物联网和多媒体应用等各种来源产生的海量数据的诞生,大数据已经成为一个重要的研究领域。大数据在许多决策和预测领域发挥了关键作用,如推荐系统、商业分析、医疗保健、网络展示广告、临床医生、交通、欺诈检测和旅游营销。Hadoop、Storm、Spark、Flink、Kafka和Pig等各种大数据工具的研究和工业界的快速发展,使得大规模数据得以分发、交流和处理[1]。大数据应用程序使用大数据分析技术来高效地分析大数据。
 
        然而,由于大数据在处理和应用方面的挑战,开发人员选择合适的大数据工具来开发大数据系统非常困难。因此,本文提出了一个分类方案,根据不同的数据处理方式对大数据工具进行分类。
 
        Flume被用作向Hadoop提供数据的工具。与处理框架一起,需要一个消息传递层来访问和转发流数据。Apache Flume是提供这一功能的较为成熟的选项之一。Flume一直是数据馈送的著名应用程序。它很好地嵌入到整个Hadoop生态系统中,并获得了所有商业Hadoop发行版的支持。这使得Flume成为开发者的主要选择[3]。
 
        流处理工具
        Hadoop是为批处理而设计的。Hadoop是一个多用途引擎,但由于其延迟,它不是一个实时和高性能的引擎。在一些流数据应用中,如日志文件处理、工业传感器和远程通信,需要实时响应和处理流式大数据。因此,有必要对流处理进行实时分析。流式大数据需要实时分析,因为大数据具有高速、大容量和复杂的数据类型,对于Map/Reduce框架将是一个挑战。因此,Storm、S4、Splunk和Apache Kafka等流处理的实时大数据平台已被开发为第二代数据流处理平台用于实时分析数据,实时处理意味着连续数据处理需要极低的响应延迟[4]。
 
Storm是实时分析中最受认可的数据流处理程序之一,专注于可靠的消息处理。Storm是一个免费、开源的分布式流媒体处理环境,用于开发和运行分布式程序,处理源源不断的数据流。因此,可以说Storm是一个开源、通用、分布式、可扩展和部分容错的平台,可以可靠地处理无限的数据流以进行实时处理。Storm的一个优点是,开发人员可以专注于使用稳定的分布式进程,同时将分布式/并行处理的复杂性和技术挑战(如构建复杂的恢复机制)委托给框架。Storm是一个复杂的事件处理器和分布式计算框架,基本上是用Clojure编程语言编写的。它是一个分布式实时计算系统,用于快速处理大数据流。Storm是一个分布式/并行框架,由Nimbus、Supervisor和Zookeeper组成,如图2所示。Storm集群主要由主节点和工作节点组成,由Zookeeper进行协调。

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读