大数据架构需要学习的技术地图

数据库 投稿 53200 0 评论

大数据体系结构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统,以便可以出于业务目的对其进行分析,根据组织的业务需求,可以将体系结构视为大数据解决方案的蓝图。

以下是最新梳理了2021年以大数据为中心的技术架构地图,一些重点的技术已经用粗体标出。计划对照地图逐一打卡,查漏补缺。

架构地图

大数据架构需要学习的技术地图

大数据架构技术路线图

传统的大数据三件套

  • 大数据采集

  • 大数据存储

  • 大数据计算

也有说大数据可视化的,一般来说可视化的工作仍属于传统前端展示,与“小数据”的时代并无太大的差异。实际上,大数据的工作奥义就是将大数据转为小数据,然后友军接手,专业的事情还是交给专业的人去做吧。

采集那里没有特别在技术地图上写明。一般就是sqoop,flume这两个,或者加一个阿里巴巴开源的canal(支持Mysql基于数据库增量日志解析,提供增量数据订阅&消费)。存储目前主流还是Hadoop系,可以关注一下对象存储。大数据计算领域Spark还是标杆。

服务器与Linux

大数据的工作与Linux等操作系统打交道的频次远远高于传统后端开发。大数据组件的部署和维护也对服务器知识有一定的需求。这方面的知识多多益善。
Linux主要是有几个流行的发行版,再者就是关注一下6/7/8大版本的命令差异。

数学

做大数据业务的话没有对高等数学有很高的要求。想更上一层楼的话,比如目标是数据科学家,那时候再有的放矢地去钻。不过,良好的数据结构与算法基础大有裨益,跟具体做什么工作关系不大,更像是一种思维逻辑的训练。
计科的知识学而时习之,基本功扎实了,才能修好内功。

云计算

PaaS和DaaS的概念已经清晰了。大数据服务上云,数据即服务的趋势明朗,云计算的边角料该掌握就掌握,顺势而为。

建议先学习容器化

重要的方向

数据质量、数据治理和数据湖正当其时。如果只会大数据三件套,已经无法突破卷的结界了,提升综合能力,成为π型人才才能更加可靠。

这个方向可以围绕数据仓库和中台概念展开。

编程笔记 » 大数据架构需要学习的技术地图

赞同 (55) or 分享 (0)
游客 发表我的评论   换个身份
取消评论

表情
(0)个小伙伴在吐槽