加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Cloudera行业应用|大数据推动证券行业转型的技术优势

发布时间:2021-11-09 15:49:29 所属栏目:大数据 来源:互联网
导读:半结构和非结构化数据处理 随着互联网的发展,物联网的到来,数据爆炸式的增长。大数据最终可以归类为结构化数据、半结构化数据、非结构化数据。结构化数据特指表单类型的数据存储结构;而半结构化介于结构化和非结构化数据之间的,例如 XML、HTML 文档就属

半结构和非结构化数据处理
随着互联网的发展,物联网的到来,数据爆炸式的增长。大数据最终可以归类为结构化数据、半结构化数据、非结构化数据。结构化数据特指表单类型的数据存储结构;而半结构化介于结构化和非结构化数据之间的,例如 XML、HTML 文档就属于半结构化数据,半结构化数据在用户画像、物联网设备日志采集、应用点击流分析等场景中得到大规模使用;非结构化数据包含文本、图象、声音、影视、超媒体等典型信息,非结构化数据中没有限定结构形式,表示灵活,蕴含了丰富的信息。半结构化、非结构化数据占总数据 85%以上。
 
在证券行业远程开户、柜面无纸化和双录等业务,以及会计档案管理、影像系统等系统,产生的客户证件、远程开户录像、合同扫描件、客服中心语音、企业相关电子文档资料等大量的非结构化数据。这些来源广阔体量巨大的非结构数据更贴近客户,商业价值更大,内涵更丰富,更具科学性,更具有前瞻性,对企业指导作用更具真实性。传统技术处理这些数据,效果是十分有限的,而利用大数据技术可以有效的存储于管理海量的非结构化数据,并挖掘这些数据背后的价值,达到以数据驱动为企业转型的目的。大数据数据类型如图所示:
 
 
大数据量离线处理技术
大数据离线分析的数据具有数据量巨大,数据保持周期长,大量数据上做复杂的批量运算等特点,大数据把这种离线分析技术称为OLAP,主要应用在统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等场景,离线分析主要有五个环节:
 
(1) 数据采集
 
(2) 数据预处理
 
(3) 统计分析
 
(4) 数据挖掘
 
(5) 数据查询展示。
 
对应于 OLAP 技术,主要架构如图所示:
 
 
大数实时日志解析和检索
日志主要包括系统日志、应用程序日志和安全日志等,系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误。日志分析系统需要将分布在每个服务器的日志采集和集中管理,并能实现复杂的查询、排序和统计等要求,以达到信息查询,服务诊断,数据分析的需求。
 
实时日志解析和检索主要涉及以下四个环节包括日志实时采集、消息中间件、日志实时解析和日志实时检索;日志实时采集有 Apache Flume、Fluentd、Logstash、Chukwa、Scribe等可供选择,消息中间件 Kafka 是很理想的选择,日志实时解析可以使用 Storm 或者 SparkStreaming,实时日志检索可以选择 Solr 或者 ElasticSearch。

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读