大数据

一文搞懂Flink 的 Materialized Table:简化数据管道的利器

你好,我是 shengjk1,多年大厂经验,努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注!你会有如下收益: 了解大厂经验 拥有和大厂相匹配的技术等 希望看什么,评论或者私信告诉我! 文章目录 一、背景 二、Materialized Table 优势 (一&#xff

RabbitMQ之监听和@RabbitListener解析

为什么生产者需要创建RabbitTemplate这么一个Bean才能发送消息,而监听却只需要加一个@RabbitListener注解即可        首先,我们需要回顾在不使用SpringBoot时是怎样使用rabbitmq发送和接受消息的        生产者实现: public void testSendMessage() throws IO

一文说清楚Hive中常用的聚合函数[collect_list]

collect_list(col)是Hive中常用的聚合函数,用于将分组内的某列值(col)收集到一个数组中。它的核心作用是将多行数据合并为单行的数组结构,常用于数据重组或复杂分析场景。以下是详细说明和示例: 一、函数特点 分组聚合:需配合GROUP BY使用,将每个分组内的col值收集为数组。

Spark大数据分析与实战笔记(第六章 Kafka分布式发布订阅消息系统-03)

文章目录 每日一句正能量 第6章 Kafka分布式发布订阅消息系统 章节概要 6.3 Kafka 集群部署与测试 6.3.1 安装Kafka 6.3.2 启动Kafka服务 每日一句正能量 也许生活中偶有黯淡无光的时刻,但别忘了还有未实现的梦想,努力朝着自己的目标一点点前进。幸福就是每一个微小目标的达成。这些温暖明亮的小目标,一定

Flink 如何部署在没有Hadoop的机器上

引言本文主要介绍Flink on Yarn 模式下 ,Flink 需要不需要与Hadoop 部署在相同机器上?如果不需要,那推荐是部署在相同机器上还是部署在不同机器上? 结论写在前面在 Flink on YARN 模式下,Flink 不需要与 Hadoop 部署在同一台机器上,它其实只需要能够访问 Hadoop 集群的环境&#

Spring Boot 整合 RabbitMQ

Spring Boot 整合 RabbitMQ 一、概述:RabbitMQ 是什么?你可以把 RabbitMQ 想象成一个「快递中转站」。 比如你在网上买了一本书,卖家(生产者)把包裹(消息)交给快递站(RabbitMQ),快递站根据包裹上的地址&#xff0

【大数据技术-HBase-关于Hmaster、RegionServer、Region等组件功能和读写流程总结】

Hmaster的作用负责命名空间、表的创建和删除等一些DDL操作、region分配和负载均衡,并不参与数据读写,相比与其他大数据组件,如hdfs的namenode,在hbase中,Hmaster的作用是比较弱化的,即使挂掉,也暂时不影响现有表的读写。 RegionServer的作用一个机器上一个regionserver进程,主要负责管理多个region,接受客户端读写请求并交给region进行处

SpringKafka错误处理:重试机制与死信队列

文章目录 引言 一、Spring Kafka错误处理基础 二、配置重试机制 三、死信队列实现 四、特定异常的处理策略 五、整合事务与错误处理 总结 引言在构建基于Kafka的消息系统时,错误处理是确保系统可靠性和稳定性的关键因素。即使设计再完善的系统,在运行过程中也不可避免地会遇到各种异常情况,如网络波动、服务不可用、数据格式错误

Flink CDC 入门实战:从原理到踩坑全记录 (datastream/SQL 双版本)

Flink CDC 入门实战:从原理到踩坑全记录 (Java/SQL 双版本)在构建实时数仓和数据湖的过程中,CDC (Change Data Capture) 是数据摄入最核心的环节。传统的 CDC 链路往往比较复杂,而 Flink CDC 凭借其“去 Kafka 化”的极简架构、全增量一体化读取以及无锁算法,成为了目前最主流的数据同步方