<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Lakehouse on My Learning Notes</title><link>https://eleanora-lyh.github.io/MyLearningNotes/tags/lakehouse/</link><description>Recent content in Lakehouse on My Learning Notes</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Thu, 04 Jun 2026 06:26:44 +0000</lastBuildDate><atom:link href="https://eleanora-lyh.github.io/MyLearningNotes/tags/lakehouse/index.xml" rel="self" type="application/rss+xml"/><item><title>数据中台、数据仓库、大数据平台、数据湖概念区分</title><link>https://eleanora-lyh.github.io/MyLearningNotes/posts/datawarehouse/%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%8F%B0%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%B9%B3%E5%8F%B0%E6%95%B0%E6%8D%AE%E6%B9%96/</link><pubDate>Tue, 05 May 2026 21:23:00 +0800</pubDate><guid>https://eleanora-lyh.github.io/MyLearningNotes/posts/datawarehouse/%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%8F%B0%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%B9%B3%E5%8F%B0%E6%95%B0%E6%8D%AE%E6%B9%96/</guid><description>&lt;h1 id="数据源数据特点存储方式"&gt;数据源、数据特点、存储方式
&lt;/h1&gt;&lt;p&gt;“数据源”是一个&lt;strong&gt;泛指&lt;/strong&gt;，它包含企业内外部所有可能产生数据的系统。关系型数据库（如MySQL、Oracle）只是其中最重要、最结构化的一类。&lt;/p&gt;
&lt;p&gt;根据行业实践，数据源主要分为以下几类：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;数据源类型&lt;/th&gt;
 &lt;th&gt;典型示例&lt;/th&gt;
 &lt;th&gt;数据特点&lt;/th&gt;
 &lt;th&gt;常用采集技术&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;企业内部业务数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;ERP、CRM、OA、财务系统&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;高度结构化&lt;/strong&gt;，质量高，价值密度大&lt;/td&gt;
 &lt;td&gt;数据库同步（Sqoop、CDC）、API&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;应用日志与埋点&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;服务器日志、APP/Web用户行为埋点&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;半结构化/非结构化&lt;/strong&gt;，数据量大，实时性强&lt;/td&gt;
 &lt;td&gt;Flume、Logstash、Kafka&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;物联网与传感器&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;智能设备、工业传感器、GPS&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;流式数据&lt;/strong&gt;，频率高，实时性要求极高&lt;/td&gt;
 &lt;td&gt;MQTT、边缘计算、Flink&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;互联网与社交媒体&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;网页、电商评论、社交媒体内容&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;非结构化为主&lt;/strong&gt;，格式多样，更新快&lt;/td&gt;
 &lt;td&gt;网络爬虫、公开API&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;第三方数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;数据服务商、政府公开数据&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;标准化程度不一&lt;/strong&gt;，有合规要求&lt;/td&gt;
 &lt;td&gt;API下载、文件导入&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;结论&lt;/strong&gt;：数据源是&lt;strong&gt;多源异构&lt;/strong&gt;的。大数据平台的首要任务就是将这些不同来源、不同格式、不同时效的数据统一接入。&lt;/p&gt;
&lt;h2 id="数据源远不止关系型数据库"&gt;数据源：远不止关系型数据库
&lt;/h2&gt;&lt;p&gt;你图中的“数据源”是一个&lt;strong&gt;泛指&lt;/strong&gt;，它包含企业内外部所有可能产生数据的系统。关系型数据库（如MySQL、Oracle）只是其中最重要、最结构化的一类。&lt;/p&gt;
&lt;p&gt;根据行业实践，数据源主要分为以下几类：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;数据源类型&lt;/th&gt;
 &lt;th&gt;典型示例&lt;/th&gt;
 &lt;th&gt;数据特点&lt;/th&gt;
 &lt;th&gt;常用采集技术&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;企业内部业务数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;ERP、CRM、OA、财务系统&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;高度结构化&lt;/strong&gt;，质量高，价值密度大&lt;/td&gt;
 &lt;td&gt;数据库同步（Sqoop、CDC）、API&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;应用日志与埋点&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;服务器日志、APP/Web用户行为埋点&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;半结构化/非结构化&lt;/strong&gt;，数据量大，实时性强&lt;/td&gt;
 &lt;td&gt;Flume、Logstash、Kafka&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;物联网与传感器&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;智能设备、工业传感器、GPS&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;流式数据&lt;/strong&gt;，频率高，实时性要求极高&lt;/td&gt;
 &lt;td&gt;MQTT、边缘计算、Flink&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;互联网与社交媒体&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;网页、电商评论、社交媒体内容&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;非结构化为主&lt;/strong&gt;，格式多样，更新快&lt;/td&gt;
 &lt;td&gt;网络爬虫、公开API&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;第三方数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;数据服务商、政府公开数据&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;标准化程度不一&lt;/strong&gt;，有合规要求&lt;/td&gt;
 &lt;td&gt;API下载、文件导入&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;结论&lt;/strong&gt;：数据源是&lt;strong&gt;多源异构&lt;/strong&gt;的。大数据平台的首要任务就是将这些不同来源、不同格式、不同时效的数据统一接入。&lt;/p&gt;
&lt;h2 id="数据类型"&gt;数据类型
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;数据类型&lt;/th&gt;
 &lt;th&gt;定义&lt;/th&gt;
 &lt;th&gt;典型示例&lt;/th&gt;
 &lt;th&gt;类比&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;结构化数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;具有&lt;strong&gt;严格固定模式&lt;/strong&gt;的数据，可以用二维表结构（行和列）逻辑表达。&lt;/td&gt;
 &lt;td&gt;关系型数据库表（MySQL订单表）、Excel表格、CSV文件。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;乐高积木&lt;/strong&gt;：每个零件都有固定的形状和接口，可以精确拼接。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;半结构化数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;具有&lt;strong&gt;一定结构&lt;/strong&gt;，但模式不固定，常以自描述的形式存在（如标签、标记）。&lt;/td&gt;
 &lt;td&gt;JSON、XML、日志文件、HTML页面。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;一封信&lt;/strong&gt;：有固定的开头（称呼）、正文、结尾（署名）结构，但正文内容自由。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;非结构化数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;没有预定义数据模型&lt;/strong&gt;，格式多样，无法用简单的二维表表示。&lt;/td&gt;
 &lt;td&gt;文本（文章、邮件）、图片、音频、视频、PDF文档。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;一团黏土&lt;/strong&gt;：没有固定形状，可以塑造成任何样子。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;流式数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;按时间顺序持续不断、无限生成的数据序列&lt;/strong&gt;，强调数据的时效性和顺序性。&lt;/td&gt;
 &lt;td&gt;传感器实时读数、股票交易流水、APP点击流、直播弹幕。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;自来水管中的水&lt;/strong&gt;：持续流动，必须用容器（如桶）接住并实时处理，否则就流走了。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;关键辨析&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;结构化/半结构化/非结构化&lt;/strong&gt;​ 是 &lt;strong&gt;从数据格式的规范性&lt;/strong&gt;​ 角度划分。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;流式数据&lt;/strong&gt;​ 是 &lt;strong&gt;从数据产生的时序性和处理方式&lt;/strong&gt;​ 角度划分，它可以是结构化的（如交易流水），也可以是半结构化的（如JSON格式的日志）。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="为什么数据源对应不同的数据特点"&gt;为什么数据源对应不同的数据特点
&lt;/h2&gt;&lt;p&gt;这由&lt;strong&gt;数据产生的源头和方式&lt;/strong&gt;决定。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;业务系统（如ERP、CRM）&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;**为什么是结构化数据？**​因为这些系统基于关系型数据库构建，必须遵循严格的表结构来保证事务的ACID特性。一条“订单”数据，必须包含订单ID、用户ID、金额、时间等固定字段。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;设计原因&lt;/strong&gt;：保证数据的&lt;strong&gt;一致性、完整性和准确性&lt;/strong&gt;，这是业务运转的基石。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;应用日志与埋点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;**为什么是半结构化数据（如JSON）？**​ 因为日志需要灵活地记录各种事件，不同事件的参数差异很大。JSON的键值对形式既能保持一定的可读性，又能灵活扩展。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;示例&lt;/strong&gt;：一个“点击事件”的JSON日志可能包含 &lt;code&gt;{“event”: “click”, “user_id”: “123”, “page”: “home”, “timestamp”: “2023-05-12 10:00:00”}&lt;/code&gt;，而一个“支付事件”的日志会增加 &lt;code&gt;“amount”: 100, “order_id”: “456”&lt;/code&gt;等字段。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;设计原因&lt;/strong&gt;：&lt;strong&gt;灵活性和可扩展性&lt;/strong&gt;。业务快速迭代时，可以随时增加新的日志字段，而无需修改数据库表结构。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;物联网与传感器&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;**为什么是流式数据？**​ 因为物理世界是连续变化的，传感器以固定的频率（如每秒100次）持续产生读数。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;设计原因&lt;/strong&gt;：&lt;strong&gt;实时监控与即时响应&lt;/strong&gt;。例如，监控电网频率，必须在毫秒级发现异常并触发保护。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;图片、音视频&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;**为什么是非结构化数据？**​ 其信息蕴含在像素、声波、帧序列中，计算机无法直接理解其“含义”。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;设计原因&lt;/strong&gt;：&lt;strong&gt;承载人类可感知的丰富信息&lt;/strong&gt;。一张产品图片所包含的信息，远非“颜色：红，尺寸：大”这几个结构化字段所能概括。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id="存储方式与设计原因"&gt;存储方式与设计原因
&lt;/h2&gt;&lt;p&gt;不同的数据类型，因其使用方式不同，采用了截然不同的存储方案。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;数据类型&lt;/th&gt;
 &lt;th&gt;典型存储方案&lt;/th&gt;
 &lt;th&gt;为什么这么设计？&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;结构化数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;关系型数据库（MySQL/Oracle）&lt;/strong&gt;、**数据仓库（Hive/ClickHouse）**​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;为了高效的关联查询和事务处理&lt;/strong&gt;。二维表结构和SQL语言是为关联查询而生的最优解。数据仓库则针对海量数据的分析查询做了列式存储等优化。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;半结构化数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;NoSQL数据库（MongoDB/ES）&lt;/strong&gt;、&lt;strong&gt;分布式文件系统（HDFS）&lt;/strong&gt;、**消息队列（Kafka）**​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;为了灵活的模式和快速的读写&lt;/strong&gt;。MongoDB的文档模型直接存储JSON，便于扩展。HDFS和Kafka则提供了高吞吐的廉价存储，适合海量日志的批量或流式处理。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;非结构化数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;对象存储（AWS S3/阿里云OSS）&lt;/strong&gt;、**分布式文件系统（HDFS）**​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;为了存储海量、低访问频率的“大文件”&lt;/strong&gt;。对象存储提供近乎无限的容量、极高的持久性和低廉的成本，并通过HTTP接口访问，非常适合存储图片、视频。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;流式数据&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;消息队列（Kafka/Pulsar）&lt;/strong&gt;、&lt;strong&gt;流处理引擎内存&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;为了缓冲和削峰填谷&lt;/strong&gt;。流数据产生速度不稳定，需要消息队列作为“缓冲区”来承接，再让下游的流处理引擎（如Flink）以可控的速度消费处理。Kafka的持久化机制也允许数据重播。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;一个综合案例：用户上传短视频&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;视频文件（非结构化）&lt;/strong&gt; -&amp;gt; 存入 &lt;strong&gt;对象存储（OSS）&lt;/strong&gt;，获得一个URL。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;视频元信息（结构化）&lt;/strong&gt;：标题、作者、时长、OSS URL -&amp;gt; 存入 &lt;strong&gt;关系数据库（MySQL）&lt;/strong&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;用户播放行为日志（半结构化JSON）&lt;/strong&gt; -&amp;gt; 实时写入 &lt;strong&gt;消息队列（Kafka）&lt;/strong&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Kafka中的日志&lt;/strong&gt;​ -&amp;gt; 被 &lt;strong&gt;流处理引擎Flink&lt;/strong&gt;实时消费，计算热度指标。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;**计算结果（结构化）**​ -&amp;gt; 写回 &lt;strong&gt;数据库​ 或 数据仓库&lt;/strong&gt;，用于推荐。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h1 id="大数据中的易混淆概念"&gt;大数据中的易混淆概念
&lt;/h1&gt;&lt;h2 id="数据流动方向"&gt;数据流动方向
&lt;/h2&gt;&lt;p&gt;如下：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;
&lt;table style="border-spacing:0;padding:0;margin:0;border:0;"&gt;&lt;tr&gt;&lt;td style="vertical-align:top;padding:0;margin:0;border:0;"&gt;
&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 1
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 2
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 3
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 4
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 5
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 6
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 7
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 8
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 9
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt;10
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt;11
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td style="vertical-align:top;padding:0;margin:0;border:0;;width:100%"&gt;
&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-sql" data-lang="sql"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;数据源（业务系统&lt;/span&gt; &lt;span style="color:#f92672"&gt;/&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;日志&lt;/span&gt; &lt;span style="color:#f92672"&gt;/&lt;/span&gt; IoT&lt;span style="color:#960050;background-color:#1e0010"&gt;）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;↓&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;数据湖（原始数据池）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;↓&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;数据仓库（结构化分析层）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;↓&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;数据中台（数据服务层）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;↓&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;业务应用&lt;/span&gt; &lt;span style="color:#f92672"&gt;/&lt;/span&gt; BI &lt;span style="color:#f92672"&gt;/&lt;/span&gt; AI
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;大数据平台&lt;/span&gt; &lt;span style="color:#f92672"&gt;=&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;整体技术底座（承载以上所有）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id="数据湖-vs-数据仓库ods层核心区别"&gt;数据湖 vs. 数据仓库ODS层：核心区别
&lt;/h2&gt;&lt;p&gt;这是一个经典问题。两者虽然都可能存储“原始数据”，但定位、设计和用途有本质区别。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;对比维度&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;数据湖&lt;/strong&gt;​&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;数据仓库ODS层&lt;/strong&gt;​&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;核心定位&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;**企业级原始数据“蓄水池”**​&lt;/td&gt;
 &lt;td&gt;**面向分析的数据“预处理区”**​&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;设计哲学&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;**“先存储，后定义”**​ (Schema-on-Read)&lt;/td&gt;
 &lt;td&gt;**“先定义，后存储”**​ (Schema-on-Write)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;数据范围&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;全量原始数据&lt;/strong&gt;：结构化、半结构化、非结构化（文本、图片、视频、日志）&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;业务系统结构化数据的镜像&lt;/strong&gt;：主要来自关系型数据库、日志文件等&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;数据状态&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;绝对原始&lt;/strong&gt;，基本不做清洗转换，保留所有细节和可能的“脏数据”。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;轻度清洗整合&lt;/strong&gt;：会进行字段标准化、编码统一、简单去重等，保证数据一致性。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;存储目标&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;长期存储&lt;/strong&gt;，用于数据探索、机器学习、回溯分析等未知场景。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;短期或周期存储&lt;/strong&gt;，作为数据仓库ETL流程的缓冲区和数据来源。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;主要用户&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;数据科学家、算法工程师&lt;/strong&gt;，进行数据挖掘和模型训练。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;数据开发工程师、数据分析师&lt;/strong&gt;，进行ETL加工和即席查询。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;技术实现&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;基于 &lt;strong&gt;HDFS&lt;/strong&gt;、&lt;strong&gt;对象存储（如S3、OSS）&lt;/strong&gt;，搭配 &lt;strong&gt;Hive&lt;/strong&gt;、&lt;strong&gt;Spark&lt;/strong&gt;、&lt;strong&gt;Presto&lt;/strong&gt;​ 进行查询。&lt;/td&gt;
 &lt;td&gt;通常是 &lt;strong&gt;Hive&lt;/strong&gt;​ 或 &lt;strong&gt;MPP数据库&lt;/strong&gt;​ 中的一个逻辑层，有明确的表结构。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;假设你有一个电商平台：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据湖&lt;/strong&gt;​ 里存了什么？&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;MySQL 里订单表的 &lt;strong&gt;全量二进制日志&lt;/strong&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;用户在前端的所有 &lt;strong&gt;点击流JSON日志&lt;/strong&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;商品页的 &lt;strong&gt;详情图片&lt;/strong&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;客服与用户的 &lt;strong&gt;聊天录音&lt;/strong&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;这些数据可能几年都不会被用到，但一旦需要训练一个“以图搜图”的模型，商品图片就派上用场了。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;ODS层&lt;/strong&gt;​ 里存了什么？&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;从MySQL同步过来的 &lt;strong&gt;&lt;code&gt;ods_order&lt;/code&gt;表&lt;/strong&gt;，已经将时间字段统一为UTC，将用户状态编码（如&lt;code&gt;0/1&lt;/code&gt;）统一为中文（&lt;code&gt;‘有效’/‘无效’&lt;/code&gt;）。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;从日志服务器同步过来的 &lt;strong&gt;&lt;code&gt;ods_user_click&lt;/code&gt;表&lt;/strong&gt;，已经将JSON日志解析成了结构化的字段（&lt;code&gt;user_id&lt;/code&gt;, &lt;code&gt;page_url&lt;/code&gt;, &lt;code&gt;click_time&lt;/code&gt;）。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;它的目的非常明确：&lt;strong&gt;快速、稳定地为下游的DWD（明细层）、DWS（汇总层）提供高质量的、结构化的数据源&lt;/strong&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="数据中台数据仓库大数据平台数据湖"&gt;数据中台、数据仓库、大数据平台、数据湖
&lt;/h2&gt;&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据湖（Data Lake）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;定义&lt;/strong&gt;：一个集中存储&lt;strong&gt;所有原始数据&lt;/strong&gt;（结构化、半结构化、非结构化）的存储库，就像一个大湖，无论河水、雨水都先汇集于此。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;核心特征&lt;/strong&gt;：&lt;strong&gt;“先存后用”&lt;/strong&gt;，存储成本低，格式不限，支持灵活的数据探索与高级分析（如AI训练）。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据仓库（Data Warehouse）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;定义&lt;/strong&gt;：一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，&lt;strong&gt;用于支持管理决策&lt;/strong&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;核心特征&lt;/strong&gt;：&lt;strong&gt;“先用后存”&lt;/strong&gt;，数据经过清洗、转换、建模（如维度建模），形成易于理解的、高质量的数据模型（如分层模型：ODS→DWD→DWS→ADS）。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;大数据平台（Big Data Platform）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;定义&lt;/strong&gt;：提供&lt;strong&gt;数据全生命周期管理能力&lt;/strong&gt;的&lt;strong&gt;技术底座与工具集合&lt;/strong&gt;。它是承载数据湖、数据仓库、数据中台运行的“操作系统”和“工具箱”。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;核心特征&lt;/strong&gt;：&lt;strong&gt;技术导向&lt;/strong&gt;，包含存储（HDFS / S3）、计算（Spark、Flink、MapReduce）、工具（Hive、Kafka、HBase）、调度系统、元数据管理等一整套技术组件。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据中台（Data Middle Platform）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;定义&lt;/strong&gt;：一种&lt;strong&gt;组织战略与架构理念&lt;/strong&gt;，通过将数据资产、数据能力、数据服务进行&lt;strong&gt;平台化、组件化、标准化&lt;/strong&gt;，以&lt;strong&gt;API服务&lt;/strong&gt;的形式快速响应前台业务需求。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;核心特征&lt;/strong&gt;：&lt;strong&gt;业务与组织导向&lt;/strong&gt;，核心目标是“&lt;strong&gt;降本增效&lt;/strong&gt;”和“&lt;strong&gt;数据业务化&lt;/strong&gt;”。它不是一个具体软件，而是基于大数据平台构建的“数据产品工厂”和“服务超市”。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;数据治理（标准、质量、血缘）、数据资产（标签 / 指标）、数据服务（API / 数据接口）、数据复用（跨部门使用）&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id="核心区别与联系一张图看懂"&gt;核心区别与联系（一张图看懂）
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;维度&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;数据湖&lt;/strong&gt;​&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;数据仓库&lt;/strong&gt;​&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;大数据平台&lt;/strong&gt;​&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;数据中台&lt;/strong&gt;​&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;核心定位&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;原始数据 “仓库”&lt;/td&gt;
 &lt;td&gt;分析数据“超市”&lt;/td&gt;
 &lt;td&gt;技术“工具箱”与“地基”&lt;/td&gt;
 &lt;td&gt;数据能力“服务商”&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;主要目的&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;存储一切，探索未知&lt;/td&gt;
 &lt;td&gt;支撑已知的、稳定的分析报表&lt;/td&gt;
 &lt;td&gt;提供稳定可靠的数据处理技术能力&lt;/td&gt;
 &lt;td&gt;快速响应业务变化，赋能创新&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;数据状态&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;原始、未加工、格式多样&lt;/td&gt;
 &lt;td&gt;清洗、整合、建模后的高质量数据&lt;/td&gt;
 &lt;td&gt;承载上述所有数据状态&lt;/td&gt;
 &lt;td&gt;不直接存储数据，提供数据的服务化封装&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;典型用户&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;数据科学家、算法工程师&lt;/td&gt;
 &lt;td&gt;数据分析师、业务决策者&lt;/td&gt;
 &lt;td&gt;数据开发工程师、平台运维&lt;/td&gt;
 &lt;td&gt;前端业务开发、产品经理、运营&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;技术栈&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;HDFS/S3 + Spark/Presto&lt;/td&gt;
 &lt;td&gt;Hive/Spark + 维度建模 + BI工具&lt;/td&gt;
 &lt;td&gt;Hadoop生态全家桶 + 调度/监控&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;基于大数据平台&lt;/strong&gt;，增加服务化、资产化管理组件&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;产出物&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;原始数据集、AI模型&lt;/td&gt;
 &lt;td&gt;报表、指标、分析结论&lt;/td&gt;
 &lt;td&gt;稳定运行的集群、任务、管道&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;统一数据服务API&lt;/strong&gt;（如“用户画像API”、“实时风控API”）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;通俗比喻&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;毛坯房仓库&lt;/strong&gt;（什么都能放，但找东西难）&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;精装陈列馆&lt;/strong&gt;（分门别类，方便参观）&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;建筑工地与工具&lt;/strong&gt;（水泥、钢筋、起重机）&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;物业管理公司+精品店&lt;/strong&gt;（提供标准化服务，快速满足住户需求）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;它们的关系链可以概括为：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;大数据平台&lt;/strong&gt;​ 提供了从“数据源”抽取数据到 **“数据湖”&lt;strong&gt;​ 的能力，并对湖中数据进行加工后存入 &lt;strong&gt;“数据仓库”&lt;/strong&gt;。&lt;/strong&gt;“数据中台”**​ 则将数据仓库（及数据湖）中的核心数据资产，封装成易用的服务，通过 &lt;strong&gt;大数据平台&lt;/strong&gt;​ 的能力，高效地提供给“业务应用”。&lt;/p&gt;
&lt;h2 id="电商场景的实例"&gt;电商场景的实例
&lt;/h2&gt;&lt;p&gt;假设“淘宝”要做一个“猜你喜欢”功能：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据湖&lt;/strong&gt;：存储用户所有的原始点击流日志、商品图片、搜索词、甚至客服语音。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据仓库&lt;/strong&gt;：将点击流日志清洗成结构化表 &lt;code&gt;dwd_user_click&lt;/code&gt;，并与商品表&lt;code&gt;dim_product&lt;/code&gt;关联，生成用户行为宽表 &lt;code&gt;dws_user_behavior&lt;/code&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;大数据平台&lt;/strong&gt;：用 &lt;strong&gt;Flink&lt;/strong&gt;​ 实时处理点击流写入数据湖，用 &lt;strong&gt;Spark&lt;/strong&gt;​ 每天定时计算 &lt;code&gt;dws_user_behavior&lt;/code&gt;表，用 &lt;strong&gt;Airflow&lt;/strong&gt;​ 调度整个任务。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据中台&lt;/strong&gt;：数据中台团队将 &lt;code&gt;dws_user_behavior&lt;/code&gt;表中的核心逻辑（如“用户近期偏好类目”）封装成一个名为 **“用户实时偏好服务”**​ 的API。推荐系统的开发团队直接调用这个API，而无需关心数据在哪里、如何计算。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h1 id="现代趋势湖仓一体"&gt;现代趋势：湖仓一体
&lt;/h1&gt;&lt;p&gt;&lt;strong&gt;湖仓一体&lt;/strong&gt;​ 是一种融合性数据架构，它试图在一个统一的平台上，同时提供数据湖的&lt;strong&gt;灵活性、低成本存储&lt;/strong&gt;和数据仓库的&lt;strong&gt;高性能、强管理性&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心思想&lt;/strong&gt;：不再将“湖”和“仓”物理分离成两套系统，而是构建一个&lt;strong&gt;统一的数据管理层&lt;/strong&gt;，让数据“一份存储”，却能同时支持&lt;strong&gt;数据科学探索&lt;/strong&gt;（像用湖）和&lt;strong&gt;高性能BI分析&lt;/strong&gt;（像用仓）。&lt;/p&gt;
&lt;p&gt;👉 不再分湖和仓，而是&lt;strong&gt;直接在“湖”里建“仓能力”&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="为什么会出现-lakehouse"&gt;为什么会出现 Lakehouse
&lt;/h2&gt;&lt;p&gt;1）数据仓库的问题&lt;/p&gt;
&lt;p&gt;✅ 查询快
❌ 只能结构化数据
❌ 成本高
❌ 不适合 AI / ML&lt;/p&gt;
&lt;p&gt;2）数据湖的问题&lt;/p&gt;
&lt;p&gt;✅ 什么都能存
✅ 成本低
❌ 数据乱（容易变“数据沼泽”）
❌ 无事务、无治理
❌ 查询慢&lt;/p&gt;
&lt;h2 id="湖仓一体-vs-其他概念"&gt;湖仓一体 vs. 其他概念
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;概念&lt;/th&gt;
 &lt;th&gt;与湖仓一体的&lt;strong&gt;相同点&lt;/strong&gt;​&lt;/th&gt;
 &lt;th&gt;与湖仓一体的&lt;strong&gt;核心不同点&lt;/strong&gt;​&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;数据湖&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;存储原始数据&lt;/strong&gt;：湖仓一体继承了数据湖存储原始、多格式数据的能力。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;缺乏治理与性能&lt;/strong&gt;：传统数据湖是“野蛮生长”的，缺乏ACID事务、数据版本管理、行级更新和查询优化，难以直接支撑高性能BI。湖仓一体&lt;strong&gt;补上了这些能力&lt;/strong&gt;。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;数据仓库&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;支撑BI分析&lt;/strong&gt;：湖仓一体提供了可与传统数据仓库媲美的SQL性能和数据治理能力。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;不够开放灵活&lt;/strong&gt;：传统数据仓库对非结构化数据和AI场景支持弱，且常是封闭、昂贵的专用系统。湖仓一体&lt;strong&gt;基于开放的存储格式（如Parquet/ORC）和计算引擎（如Spark）&lt;/strong&gt;，更开放、成本更低。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;大数据平台&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;技术底座&lt;/strong&gt;：湖仓一体是构建在大数据平台（如HDFS、对象存储、Spark）之上的&lt;strong&gt;一种具体架构实现&lt;/strong&gt;。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;范围更聚焦&lt;/strong&gt;：大数据平台是一个更宽泛的“工具箱”概念。湖仓一体是这个工具箱为解决“湖仓割裂”问题而组合出的一种&lt;strong&gt;特定“解决方案”或“产品形态”&lt;/strong&gt;。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;数据中台&lt;/strong&gt;​&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;共同目标&lt;/strong&gt;：两者都致力于提升数据利用效率、降低数据使用成本。&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;层次不同&lt;/strong&gt;：数据中台是&lt;strong&gt;业务和组织层面的战略与架构&lt;/strong&gt;，强调数据服务化。湖仓一体是&lt;strong&gt;偏技术层面的存储与计算架构&lt;/strong&gt;，是中台战略得以实现的&lt;strong&gt;重要技术支撑&lt;/strong&gt;。一个强大的湖仓一体平台，能让数据中台的数据资产管理和服务封装更高效。&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="lakehouse-核心能力"&gt;Lakehouse 核心能力
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;序号&lt;/th&gt;
 &lt;th&gt;核心能力&lt;/th&gt;
 &lt;th&gt;含义&lt;/th&gt;
 &lt;th&gt;解决的问题&lt;/th&gt;
 &lt;th&gt;关键技术 / 实现方式&lt;/th&gt;
 &lt;th&gt;你项目里的对应&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;1️⃣&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;统一存储&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;所有数据（结构化 / 半结构化 / 非结构化）都存在同一份存储中&lt;/td&gt;
 &lt;td&gt;消除“湖一份 + 仓一份”的数据冗余&lt;/td&gt;
 &lt;td&gt;对象存储（ADLS / S3 / OSS）&lt;/td&gt;
 &lt;td&gt;ADLS / ObjectStore 作为底座&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;2️⃣&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;支持所有数据类型&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;同时支持表、JSON、日志、图片、音视频等&lt;/td&gt;
 &lt;td&gt;数据仓库只能存结构化数据的局限&lt;/td&gt;
 &lt;td&gt;Parquet / ORC / Avro / 二进制文件&lt;/td&gt;
 &lt;td&gt;Cosmos 原始日志 + Kusto 结构化数据&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;3️⃣&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;ACID 事务支持&lt;/strong&gt; ⭐&lt;/td&gt;
 &lt;td&gt;提供原子性、一致性、隔离性、持久性&lt;/td&gt;
 &lt;td&gt;数据湖没有事务、数据混乱、无法 Update/Delete&lt;/td&gt;
 &lt;td&gt;Delta Lake / Apache Iceberg / Apache Hudi&lt;/td&gt;
 &lt;td&gt;类似 Kusto 的 ingestion 一致性，但更通用&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;4️⃣&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;统一计算（多工作负载）&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;一套系统支持 BI、SQL、流计算、ML/AI&lt;/td&gt;
 &lt;td&gt;传统架构需要 Hive + Spark + Kafka + DWH 多套系统&lt;/td&gt;
 &lt;td&gt;Spark SQL / Flink / Presto / Databricks SQL&lt;/td&gt;
 &lt;td&gt;Spark + ADF + Kusto 的统一替代方案&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;5️⃣&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;存算分离&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;存储与计算独立扩展，按需付费&lt;/td&gt;
 &lt;td&gt;传统数仓存算耦合，扩容成本高&lt;/td&gt;
 &lt;td&gt;存储：ADLS / S3；计算：Spark / Trino / StarRocks&lt;/td&gt;
 &lt;td&gt;你现在 Spark on ADLS 就是典型存算分离&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;6️⃣&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;批流一体&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;离线和实时数据用同一套链路处理&lt;/td&gt;
 &lt;td&gt;Lambda 架构（批+流双链路）维护复杂&lt;/td&gt;
 &lt;td&gt;Delta Streaming / Flink CDC / Structured Streaming&lt;/td&gt;
 &lt;td&gt;替代“ADF批 + Kafka流”双链路&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;p&gt;🎯 一句话记忆口诀（建议背下来）&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&lt;strong&gt;一存（统一存储）、多类（多数据类型）、强事务（ACID）、多算（统一计算）、分离（存算分离）、一体（批流一体）&lt;/strong&gt;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;h2 id="湖仓一体是如何实现的技术关键"&gt;湖仓一体是如何实现的？（技术关键）
&lt;/h2&gt;&lt;p&gt;它并非魔法，而是通过一系列技术创新实现的：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;统一的元数据层&lt;/strong&gt;：在HDFS或对象存储（S3/OSS）之上，增加一个统一的&lt;strong&gt;元数据管理层&lt;/strong&gt;，像“智能目录”一样管理所有数据。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;开放的表格式&lt;/strong&gt;：采用 &lt;strong&gt;Apache Iceberg、Apache Hudi、Delta Lake&lt;/strong&gt;​ 等“事务化表格式”层。这是&lt;strong&gt;湖仓一体的技术核心&lt;/strong&gt;。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;它们为存储在湖上的文件提供了&lt;strong&gt;类似数据库表的抽象&lt;/strong&gt;，支持ACID事务、时间旅行、模式演进、高效upsert/delete。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;计算引擎分离&lt;/strong&gt;：计算引擎（Spark、Flink、Presto、BI工具）可以直接通过统一的表格式层访问数据，而无需移动数据。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id="lakehouse的5层架构"&gt;Lakehouse的5层架构
&lt;/h2&gt;&lt;div class="highlight"&gt;&lt;div style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;
&lt;table style="border-spacing:0;padding:0;margin:0;border:0;"&gt;&lt;tr&gt;&lt;td style="vertical-align:top;padding:0;margin:0;border:0;"&gt;
&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 1
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 2
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 3
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 4
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 5
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 6
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 7
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 8
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt; 9
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt;10
&lt;/span&gt;&lt;span style="white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f"&gt;11
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td style="vertical-align:top;padding:0;margin:0;border:0;;width:100%"&gt;
&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-sql" data-lang="sql"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;┌─────────────────────────────────────┐&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;5&lt;/span&gt;. &lt;span style="color:#960050;background-color:#1e0010"&gt;应用层（&lt;/span&gt;BI &lt;span style="color:#f92672"&gt;/&lt;/span&gt; ML &lt;span style="color:#f92672"&gt;/&lt;/span&gt; AI &lt;span style="color:#f92672"&gt;/&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;实时）&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;├─────────────────────────────────────┤&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;4&lt;/span&gt;. &lt;span style="color:#960050;background-color:#1e0010"&gt;计算引擎层（&lt;/span&gt;Spark&lt;span style="color:#f92672"&gt;/&lt;/span&gt;Flink&lt;span style="color:#f92672"&gt;/&lt;/span&gt;Trino&lt;span style="color:#960050;background-color:#1e0010"&gt;）&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;├─────────────────────────────────────┤&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;3&lt;/span&gt;. &lt;span style="color:#960050;background-color:#1e0010"&gt;元数据&lt;/span&gt; &lt;span style="color:#f92672"&gt;/&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;事务层（&lt;/span&gt;Delta Log&lt;span style="color:#960050;background-color:#1e0010"&gt;）⭐⭐&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;←&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;核心&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;├─────────────────────────────────────┤&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;2&lt;/span&gt;. &lt;span style="color:#960050;background-color:#1e0010"&gt;表格式层（&lt;/span&gt;Parquet &lt;span style="color:#f92672"&gt;+&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;索引）&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;├─────────────────────────────────────┤&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;1&lt;/span&gt;. &lt;span style="color:#960050;background-color:#1e0010"&gt;存储层（&lt;/span&gt;ADLS &lt;span style="color:#f92672"&gt;/&lt;/span&gt; S3 &lt;span style="color:#f92672"&gt;/&lt;/span&gt; OSS&lt;span style="color:#960050;background-color:#1e0010"&gt;）&lt;/span&gt; &lt;span style="color:#960050;background-color:#1e0010"&gt;│&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#960050;background-color:#1e0010"&gt;└─────────────────────────────────────┘&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;</description></item></channel></rss>