大数据

hive starrocks spark 之间的关系

这三者是大数据生态中不同层次的组件,既有分工又有协作。作为测试工程师,理解它们的关系对设计数据一致性测试方案至关重要。一、核心定位对比表格复制 组件 类型 核心能力 典型延迟 适用场景 Hive 数据仓库/批处理引擎 海量数据存储、离线计算 分钟~小时级 历史数据分析、ETL、数据湖 Spark 通用计算引擎(批+流) 内

【大数据】MapReduce的“内存增强版”——Spark

【大数据】MapReduce的“内存增强版”——Spark 文章脉络 Spark架构 Spark-core SparkConf 和 SparkContext RDD Spark集群 Spark-sql 在大数据时代,数据处理和分析成为企业竞争的重要手段。Hadoop作为大数据处理的基石,其核心组件MapReduce在

计算机专业的痛只有自己懂:基于Hadoop+Spark的大学生就业数据分析系统成救星

💖💖作者:计算机毕业设计小途 💙💙个人简介:曾长期从事计算机专业培训教学,本人也热爱上课教学,语言擅长Java、微信小程序、Python、Golang、安卓Android等,开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代

springboot+zookeeper+(2025最新)Dubbo-admin实现分布式

springboot+zookeeper+(2025最新)Dubbo-admin实现分布式一、简介Dubbo + Zookeeper + Spring Boot 搭起来的就是一种 分布式服务框架。 1.什么叫分布式?  一个大系统拆成多个小服务(微服务 / 子系统)。 各个服务可以部署在不同的机器上,通过网络互相调用。 这样就能做到 解耦、扩展性强、容错性好。 &

RabbitMQ第三章(企业级MQ应用方案)

文章目录 一、发送者的可靠性 1.1、生产者重试机制 1.2、生产者确认机制 1.3、实现生产者确认 1.3.1、开启生产者确认 1.3.2、定义ReturnCallback 1.3.3、定义ConfirmCallback 二、MQ的可靠性 2.1.数据持久化 2.1.1.交换机持久化 2.1.2.队列持久化 2.1.3.消息持久化 2.2.La

大数据OLAP与图数据库的联合分析

大数据OLAP与图数据库的联合分析:用“统计力+关联力”破解复杂问题 一、引言:为什么单一工具解决不了你的分析痛点? 1.1 一个真实的反欺诈故事:OLAP和图数据库的“各自为战”去年,我在某银行的风控团队做技术支持时,遇到过一个典型问题: 风控系统用**OLAP引擎(ClickHouse)**统计到,最近3天内有1200笔交易来自同一IP地址,且交易金额集中在“1000元整数倍”——这明显

RabbitMq的status报错Error: unable to perform an operation on node ‘rabbit……

这个错误一般是由于RabbitMQ CLI 工具的 Erlang Cookie 与服务器不匹配而导致连接问题。什么意思呢?就是cookie不一致而Erlang Cookie 在 RabbitMQ 节点之间进行身份验证和安全通信时起着重要作用。在你们的C盘进行搜索有两个.erlang.cookie文件名,而里面的cookie修改为一致即可。位置一:C:\Us

5个关键指标,教你如何评估大数据的数据质量

5个关键指标,教你像“检查奶茶配方”一样评估大数据质量 关键词:大数据质量、数据准确性、数据完整性、数据一致性、数据时效性、数据唯一性 摘要:你有没有过这样的经历——点了杯“三分糖少冰加珍珠”的奶茶,拿到手却发现是全糖满冰没加珍珠?这其实和“数据质量差”的问题一模一样:不符合预期的“数据”,会让最终

【数据库】时序数据库选型指南:在大数据与工业4.0时代,为何 Apache IoTDB 成为智慧之选?

文章目录 一、引言 二、时序数据库选型的关键因素 1. 数据压缩能力 2. 分布式架构 3. 工业场景适配性 4. 性能表现 三、与国外时序数据库产品的对比 1. 功能特点对比 2. 本地化服务对比 3. 成本对比 四、IoTDB:国产时序数据库的佼佼者 1. 高压缩底层文件格式 2. 优秀的分布式架构 3. 深度适配工业场景 4. 强大的性