深入讲解 Hive 分区与分桶的原理、执行过程、Bucket Map Join、SMB Join 以及最佳实践
分析星型模型的局限,讲解雪花模型 + 桥接表如何解决多对多、层级深、历史变化等场景,并给出完整的数仓分层设计
区分数据中台、数据仓库、大数据平台和数据湖等核心概念,并介绍湖仓一体的现代架构趋势
介绍 MapReduce 和 YARN 的核心概念、YARN 集群部署配置以及提交 MapReduce 任务到 YARN 的示例(wordcount、pi)
Hadoop HDFS 集群部署、Shell 操作、Windows 连接 HDFS、存储原理(块、副本、NameNode 元数据、读写流程)等系统性介绍
Linux 文件与目录管理基础,包括目录操作、文件查看、复制移动、权限设置以及文件搜索等常用命令
详细介绍 Linux 文件权限、用户组管理、目录配置以及权限相关命令的使用
↑