My Learning Notes

【十二】Hive执行计划：EXPLAIN 输出与QueryPlan，EXPLAIN常见用法

梳理 Hive 执行计划 QueryPlan 与 EXPLAIN 输出的关系，结合 MapReduce Stage、Operator Tree、统计信息和常见 EXPLAIN 用法理解 SQL 执行过程。

【十一】HiveSQL底层执行过程：SQL 编译、任务生成与 YARN 调度流程

梳理 Hive SQL 从客户端提交、HiveServer2 接收、Driver 编译优化，到生成 MapReduce 并提交 YARN 调度执行的完整流程。

【二】HiveSQL 排名中取他值

总结 HiveSQL 中按分组排名后取对应字段值的常见写法，包括 row_number、rank 等窗口函数的使用场景

【一】Hive表行列之间相互转换

总结 HiveSQL 中行转列和列转行的常见写法、原理、适用场景

【十】Hive 窗口函数：OVER / PARTITION BY / ORDER BY 与 OLAP 分析

系统讲解 Hive 窗口函数的核心概念、OVER 子句、PARTITION BY 与 ORDER BY 的窗口定义方式，并结合排名、累计计算、移动平均、前后行比较等 OLAP 分析场景说明常见函数用法。

Windows 使用 Docker Compose 搭建 Hive 4.1.0 + MySQL 持久化环境

记录在 Windows 本机通过 Docker Compose 搭建 HiveServer2、Hive Metastore 和 MySQL Metastore DB，并实现 Hive 元数据与表数据持久化的本地学习环境。

【九】Hive 复杂数据类型：ARRAY / MAP / STRUCT 与嵌套展开

系统讲解 Hive 三种复合数据类型（ARRAY / MAP / STRUCT）的定义、访问语法、嵌套用法，以及配套的 UDTF 函数（explode / posexplode / LATERAL VIEW）与 Spark 3.0+ 的 CROSS JOIN UNNEST 标准语法对比

【八】Hive 计算引擎：MapReduce / Tez / Spark 对比与选型

系统梳理大数据三类计算引擎（批处理 / 流处理 / 查询）的边界与职责，并深入对比 Hive 支持的 MapReduce、Tez、Spark 三种执行引擎的原理、优缺点与工程选型建议。

【七】Hive 函数：聚合 / 统计 / 分位数 / 集合 / 高级分组

系统讲解 Hive 聚合函数（count/sum/avg/max/min）、统计学函数（方差/标准差/协方差/相关系数）、分位数（percentile / percentile_approx）、集合聚合（collect_list/collect_set/map_agg）以及 GROUPING SETS / CUBE / ROLLUP 多维分析

【六】Hive 运算逻辑：数学 / 逻辑 / 条件 / 日期 / 字符串函数

全面梳理 Hive 的数学运算、逻辑运算、条件函数（IF/CASE/COALESCE/NVL）、日期函数（时间戳互转/加减/截断）以及字符串函数（截取/拼接/正则/JSON 解析）的语法与易错点