大数据

大数据应用开发生态搭建(Hadoop3.x)

大数据生态搭建(Hadoop3.x) 文章目录 大数据生态搭建(Hadoop3.x) 1、简介 2、准备虚拟机 **2.1、安装Centos7** 2.2、**关闭防火墙、配置虚拟机网络环境、安装JDK、修改主机名、克隆虚拟机和配置主机IP映射** 1、关闭防火墙 2、设置固定IP 3、修改主机名 4、安装JDK 5、克

基于大数据的短视频用户兴趣分析-hive+django+spider

开发语言:Python 框架:django Python版本:python3.8 数据库:mysql 5.7 数据库工具:Navicat12 开发软件:PyCharm 系统展示管理员登录管理员功能界面短视频界面短视频预测界面看板展示摘要系统基于Django框架进行开发,利用Python语言进行业务逻

互联网大厂Java面试故事:产业互联网场景下Spring Cloud、Kafka、JPA、AI与安全全链路实战解析

互联网大厂Java面试故事:产业互联网场景下Spring Cloud、Kafka、JPA、AI与安全全链路实战解析场景设定谢飞机,一位搞笑的Java程序员,来到某产业互联网大厂(如企业供应链平台)面试。平台涵盖采购管理、订单流转、实时消息与智能推荐。第一轮:基础能力与产业互联网业务理解面试官:谢飞机你

【大数据技术基础 | 实验十二】Hive实验:Hive分区

文章目录 一、实验目的 二、实验要求 三、实验原理 四、实验环境 五、实验步骤 (一)启动Hadoop集群 (二)用命令进入Hive客户端 (三)通过HQL语句进行实验 六、实验结果 七、实验心得 一、实验目的掌握Hive分区的用法,加深对Hive分区概念的理解&#xf

Hive 4.1.0的安装与部署

1.下载安装介质下载地址:   (或者可以访问官网选择其他版本  #xff09;在安装Hive之前,需要确认已经安装了 Hadoop sudo tar -zxvf ./apache-hiv

01 | Hive SQL执行步骤

Hive SQL 的执行过程是将用户编写的类 SQL 语句(HiveQL)转化为底层可执行的计算任务(如 MapReduce、Tez 或 Spark),并在 Hadoop 生态中完成数据处理。整个流程可分为 6 个核心步骤,体现了 Hive “SQL → 逻辑计划 → 物理计划 → 分布式执行” 的编译与优化思想。

【推荐系统】深度学习训练框架(十五):特征工程——PySpark DataFrame数据处理核心指南

📚 一、DataFrame核心概念 1.1 什么是DataFrame?本质:PySpark DataFrame是一个分布式、不可变、基于命名列的数据集合,类似于关系型数据库表或Pandas DataFrame,但底层是RDD的封装。关键特性: 分布式处理:数据自动分区在集群节点上并行处理 惰性

【docker】Docker Image(镜像)

系列文章目录 文章目录 系列文章目录 一、Docker镜像是什么? 镜像生活案例 镜像分层生活案例 为什么需要镜像 二、镜像命令详解 1.镜像命令清单 2.具体命令使用 (1)docker images (2)docker tag (3)docker rmi &#xff08

【JavaWeb学习 | 第18篇】Servlet与MVC

🌈 个人主页: Hygge_Code 🔥 热门专栏:从0开始学习Java | Linux学习| 计算机网络 💫 个人格言: “既然选择了远方,便不顾风雨兼程” 文章目录 深入理解Servlet与MVC JSP内置对象回顾🥝 1. request对象 2. respons

探索大数据领域Spark的分布式计算性能提升方法

Spark分布式计算性能调优全攻略:从原理到实践的12个关键方法副标题:解决Shuffle慢、资源浪费、任务倾斜的实战指南 摘要/引言你有没有遇到过这样的场景? 写好的Spark任务跑到一半卡住,盯着日志看“Shuffle Read”进度半天不动; 明明给了10个Executor,却只有2个在干活,