系统讲解 Hive 窗口函数的核心概念、OVER 子句、PARTITION BY 与 ORDER BY 的窗口定义方式,并结合排名、累计计算、移动平均、前后行比较等 OLAP 分析场景说明常见函数用法。
记录在 Windows 本机通过 Docker Compose 搭建 HiveServer2、Hive Metastore 和 MySQL Metastore DB,并实现 Hive 元数据与表数据持久化的本地学习环境。
系统讲解 Hive 三种复合数据类型(ARRAY / MAP / STRUCT)的定义、访问语法、嵌套用法,以及配套的 UDTF 函数(explode / posexplode / LATERAL VIEW)与 Spark 3.0+ 的 CROSS JOIN UNNEST 标准语法对比
系统梳理大数据三类计算引擎(批处理 / 流处理 / 查询)的边界与职责,并深入对比 Hive 支持的 MapReduce、Tez、Spark 三种执行引擎的原理、优缺点与工程选型建议。
全面梳理 Hive 的数学运算、逻辑运算、条件函数(IF/CASE/COALESCE/NVL)、日期函数(时间戳互转/加减/截断)以及字符串函数(截取/拼接/正则/JSON 解析)的语法与易错点
系统讲解 Hive 聚合函数(count/sum/avg/max/min)、统计学函数(方差/标准差/协方差/相关系数)、分位数(percentile / percentile_approx)、集合聚合(collect_list/collect_set/map_agg)以及 GROUPING SETS / CUBE / ROLLUP 多维分析
深入讲解行存与列存原理、Hive 主流存储格式(TextFile / SequenceFile / RCFile / ORC / Parquet / Avro)以及 Hadoop / Hive 中各种压缩算法的选型和参数配置
系统梳理 Hive 数据库 / 表的 DDL(建库、建表、内外部表、分区、分桶、CTAS)以及 DQL 查询语法(SELECT、WHERE、GROUP BY、各种排序、JOIN、UNION 等)
讲解 Hive 三大抽样方式:分桶抽样、块抽样、随机抽样的原理、语法、性能对比与实战案例
介绍Hive的数据类型:基本数据类型、复杂数据类型
↑