大数据体系结构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统,以便可以出于业务目的对其进行分析,根据组织的业务需求,可以将体系结构视为大数据解决方案的蓝图。
以下是最新梳理了2021年以大数据为中心的技术架构地图,一些重点的技术已经用粗体标出。计划对照地图逐一打卡,查漏补缺。
架构地图
大数据架构技术路线图
传统的大数据三件套
大数据采集
大数据存储
大数据计算
也有说大数据可视化的,一般来说可视化的工作仍属于传统前端展示,与“小数据”的时代并无太大的差异。实际上,大数据的工作奥义就是将大数据转为小数据,然后友军接手,专业的事情还是交给专业的人去做吧。
采集那里没有特别在技术地图上写明。一般就是sqoop,flume这两个,或者加一个阿里巴巴开源的canal(支持Mysql基于数据库增量日志解析,提供增量数据订阅&消费)。存储目前主流还是Hadoop系,可以关注一下对象存储。大数据计算领域Spark还是标杆。
服务器与Linux
大数据的工作与Linux等操作系统打交道的频次远远高于传统后端开发。大数据组件的部署和维护也对服务器知识有一定的需求。这方面的知识多多益善。
Linux主要是有几个流行的发行版,再者就是关注一下6/7/8大版本的命令差异。
数学
做大数据业务的话没有对高等数学有很高的要求。想更上一层楼的话,比如目标是数据科学家,那时候再有的放矢地去钻。不过,良好的数据结构与算法基础大有裨益,跟具体做什么工作关系不大,更像是一种思维逻辑的训练。
计科的知识学而时习之,基本功扎实了,才能修好内功。
云计算
PaaS和DaaS的概念已经清晰了。大数据服务上云,数据即服务的趋势明朗,云计算的边角料该掌握就掌握,顺势而为。
建议先学习容器化
重要的方向
数据质量、数据治理和数据湖正当其时。如果只会大数据三件套,已经无法突破卷的结界了,提升综合能力,成为π型人才才能更加可靠。
这个方向可以围绕数据仓库和中台概念展开。