大数据 - 小智博客

VMware平台的Ubuntu部署完全分布式Hadoop环境

前言：此文章是本人初次部署Hadoop的过程记录以及所遇到的问题解决，这篇文章只有实际操作部分，没有理论部分。因本人水平有限，本文难免存在不足的地方，如果您有建议，欢迎留言或私信告知于我，非常感谢。部分参考网络资料，如有侵权，联系删除。文章目录前言&#xf

大数据 2025年05月03日 129 点赞 0 评论 4627 浏览

数智读书笔记系列032《统一星型模型--一种敏捷灵活的数据仓库和分析设计方法》

引言在当今数字化时代，数据仓库作为企业数据管理的核心基础设施，承担着整合、存储和提供企业数据的关键角色。随着商业环境的快速变化和业务需求的日益复杂，数据仓库的设计方法也在不断演进，以适应新的挑战和要求。背景与意义数据仓库领域长期存在着两种主流方法论之争：Bill Inmon提出的自上而下企业级数据仓库方法和Ralph Kimball倡导的自下而上维度建模方法。这两种方法各有优劣，但在应对现代企

大数据 2025年05月20日 62 点赞 0 评论 4675 浏览

MapReduce报错 HADOOP_HOME and hadoop.home.dir are unset.

运行课程讲解内容出现这个报错： 1、在电脑里解压之前发过的Hadoop安装包 2、配置用户变量 3、配置系统变量 4、配置系统Path变量 5、下载链接的两个文件：链接: ?pwd=56tv 提取码: 56tv –来自百度网盘超级会员v7的分享6、放到刚刚解压路

大数据 2025年05月20日 153 点赞 0 评论 4686 浏览

Kafka选举机制深度解析：分布式系统中的民主与效率

Kafka选举机制深度解析：分布式系统中的民主与效率 🌟 你好，我是励志成为糕手 ！ 🌌 在代码的宇宙中，我是那个追逐优雅与性能的星际旅人。 ✨ 每一行代码都是我种下的星光，在逻辑的土壤里生长成璀璨的银河； 🛠️ 每一个算法都是我绘制的星图，指引

大数据 2025年11月24日 70 点赞 0 评论 4688 浏览

Docker安装Kafka（不依赖ZooKeeper）

创建docker-compose.yamlversion: "3.9" #版本号 services: kafka: image: apache/kafka:3.9.0 container_name: kafka hostname: kafka ports: - 9092:9092 # 容器内部之间使用的监听端口 - 9

大数据 2025年08月06日 197 点赞 0 评论 4691 浏览

【大数据毕设】基于spark与机器学习的肺癌风险评估与可视化分析系统|基于Hadoop和python的肺癌数据挖掘与智能预测系统

💕💕作者：计算机源码社 💕💕个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Spark、hadoop、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！ 💕&#x1f

大数据 2025年09月29日 174 点赞 0 评论 4743 浏览

大数据领域数据质量的技术创新

大数据时代的数据质量革命：从痛点到创新的技术演进之路摘要/引言想象一下：某电商平台花费数百万搭建的推荐系统，却因为用户行为数据中的“虚假点击”（机器人刷量），导致推荐结果偏差，最终流失了10%的核心用户；某医院的电子病历系统，因为跨科室数据融合时的“性别不一致”&#xf

大数据 2026年02月19日 183 点赞 0 评论 4751 浏览

Spark RDD 编程从驱动程序到共享变量、Shuffle 与持久化

1. Spark 应用的基本形态 Driver（驱动程序）：运行你的 main 函数，负责构建 DAG、提交任务、汇总结果。 Executors（执行器）：分布在集群各节点，执行并行任务。 RDD（Resilient Distributed Dataset&#xff

大数据 2025年11月23日 113 点赞 0 评论 4838 浏览

数据仓库是什么？一文带你看清它的架构

一、数据仓库是什么诞生背景数据仓库最早的出现，其实是为了解决某些现实问题：企业运营时间一长，大量老旧数据堆积在业务系统里，既没人查，也不能删，占空间、拖性能。于是人们想：能不能把这些“冷数据”挪到另一个专门的仓库里？这就成了数据仓库的第一个用途：“历史数据的安置房”。另外&

大数据 2025年05月20日 189 点赞 0 评论 4847 浏览

应对大数据领域数据共享的网络挑战

应对大数据领域数据共享的网络挑战：从“堵点”到“支点”的技术突围引言：大数据共享的“网络之痛”你有没有遇到过这样的场景？作为电商数据工程师，你想把用户实时行为数据共享给合作伙伴的推荐系统，但跨地域传输的延迟高达5秒——等数据到对方系统时，用户已经浏览完下一个页面了；作为金融机构的IT负责人，你刚完成与另一家银行的客户征信数据共享对接，却突然收到报警：数据传输过程中被黑客截获，敏感信

大数据 2026年05月21日 153 点赞 0 评论 4862 浏览

大数据

首页

IT互联网

大数据

列表

默认

浏览次数

发布时间