人工智能

Spark入门及环境搭建

一、Spark是什么 Spark是Apache下的一个用于大规模数据处理的统一分析引擎,Unified engine for large-scale data analytics. Spark还是一个支持多语言的(Python、SQL、Scala、Java、R),可以在单节点或者集群上用作数据工程、数据科学和机器学习的内存计算引擎。 Spark借鉴了MapReduce的思想发展而来,保留了其分布式

如何给 HDFS 「减肥」之数据清理

Hadoop 平台运行至今,前期处于放任自由的状态,后期才开始稍加管控,指定相关数据使用规范。日积月累,数据规模越来越大,元数据暴增,Namenode rpc 频繁超时告警,Namenode HA 切换也较为频繁。 企业的预算不可能无限增加,所以一个良好的平台规范以及定时数据清理机制,对平台的来说至关重要,属于非常实在的降本增效工作。 这里记录下我们组的近期制定的 HDFS「瘦身计划」。 1.

一文学好部署安装p8s operator

概述 为了在Kubernetes中能够方便管理和部署Prometheus,我们使用ConfigMap管理Prometheus配置文件。 promethuse中间也刚好8个字符,我们也称为p8s. p8s Operator架构原理 从概念上来讲Operator就是针对管理特定应用程序的,在Kubernetes基本的Resource和Controller的概念上,以扩展Kubernetes api的形

用飞算JavaAI轻松完成高校宿舍管理系统

今天我们使用飞算来完成高校宿舍管理系统。 一、需求分析与规划 1.1 功能需求与核心模块高校宿舍管理系统主要服务于宿舍管理员、学生和学校管理部门,实现宿舍资源的数字化管理。系统核心功能包括:用户管理(登录认证、角色权限分配)、宿舍管理(楼栋房间信息、床位分配状态)、学生住宿管理(入住登记、宿舍分配调换

从原理到落地:Agent AI 技术拆解与工程实践指南

🎁个人主页:User_芊芊君子 🎉欢迎大家点赞👍评论📝收藏⭐文章 🔍系列专栏:AI 【前言】 在人工智能技术从“工具化”向“自主化”演进的浪潮中,Agent AI(智能体已成为连接技术研究与产业落地的核心桥梁。不同于传统AI需要人工明确指令才能完成

什么是数据治理?

所谓“数字转型,治理先行”,近年来在国家政策倡导下,地方政府、国企、央企以及很多传统企业都是走数字化转型的路,而在数字化转型的过程中,数据治理可谓是重中之重。那么,何为数据治理?数据治理有什么意义?怎么进行数据治理?今天我就来跟大家分享一下我对数据治理的看法。 数据治理的定义 关于数据治理,国际数据治理研究所(DGI)给出的定义是:“数据治理是一个通过一系列信息相关的过程来实现决

技术解析|Doris Connector 结合 Flink CDC 实现 MySQL 分库分表 Exactly Once 精准接入

685-383.jpg 本篇文档将演示如何使用 Apache Doris Flink Connector 结合 Flink CDC 以及 Doris Stream Load 的两阶段提交,实现 MySQL 数据库分库分表实时高效接入,并实现 Exactly Once。 一、概述 在实际业务系统中为了解决单表数据量大带来的各种问题,我们通常采用分库分表的方式对库表进行拆分,以达到提高系统