人工智能

Apache Doris vs Clickhouse vs Greenplum

架构比对 Apache Doris、Clickhouse 、Greenplum都是基于MPP架构的实现的可用于数仓分析的数据库管理系统。下边通过具体的架构设计分析三者的区别。 Apache Dodis 官网描述 Apache Doris是一个现代化的MPP分析型数据库产品。 架构图 主从架构 架构描述 1. 高可靠 Apache Doris 使用了主从架构进行设计。通过Fronted

265. 【数据库运维】hdfs,10T硬盘被撑爆

最近遇到一个很坑,我一个 6 节点的分布式数据库,一个节点 10T 的硬盘,经过一层又一层的手动翻 hdfs 本地目录去找大文件,终于找到源头,一个 dncp-block-verification.log.curr 占了 5.6T,心中一个个问号冒出来时,非常义愤填膺:这玩意也能撑这么大?比我数据文件还要大? image.png 今天才假期第二天,客户那边就来催了,“解决方案商量好了吗

R可视化——图形绘制过程中如何实现局部放大?

数据及基础图形的绘制 1、数据——以R自带数据集iris为例 df<-iris image.png 2、基于ggplot2包绘制散点图 #加载绘图包 library(ggplot2) library(ggthemes) #绘图 p<-ggplot(df, aes(Sepal.Length, Sepal.Width, color = Species)) + geom_p

华为十年架构师实战经验总结:大规模分布式系统架构与设计实战

前言 本篇是从程序员到首席架构师十多年职业生涯的实战经验总结,系统讲解构建大规模分布式系统的核心技术与实现方法,包含开源的Fourinone系统的设计与实现过程,手把手教你掌握分布式技术。 通过学习这个系统的实现方法与相关的理论,读者可快速掌握分布式系统的理论并设计自己的分布式系统。 image.png 本篇从分布式计算的基本概念开始,解剖了众多流行概念的本质,深入讲解分布式系统的基本

72、重要的事情

苏菲想知道,周青子接下来还会说些什么? 苏菲仔细的想了想周青子和自己的关系,觉得自己还是有必要的将她的信件在看看······想知道周青子还会说出什么样让自己不痛快的话来。 因为已经受过了一次的好朋友的打击,再次重新的阅读这封信的前半部分的时候,苏菲的心里已经没有一开始那么难受了,但是心里还会有些堵得慌,忍耐着继续的看下去。 接下来的内容,周青子没有在说苏菲的不是,而是将宋韩和那个女生的故事,当然是

数据倾斜导致子任务积压

业务背景: 一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游Topic的 tps高峰达到5-6w。 问题描述: 给 24个 TaskManager(CPU) 都会出现来不及消费的情况。 问题原因: 做窗口聚合的任务的分组字段,分组粒度太小,hash不能打散,数据倾斜严重,导致少

Linux内核通信seq_file详解

本文介绍的用法相对复杂, 简单的用法请参考 这篇文章 seq_file适用于内核需要向应用层输出信息时使用,最常见的用法是遍历内核中的一个list数据结构输出list的内容到应用层;当然也可以输出任意的数据,并且输出到应用层的数据大小没有限制,默认缓冲区是一个PAGE_SIZE,当输出的数据大于PAGE_SIZE时seq_file会把缓冲区大小翻倍,直到超过要输出的数据大小,或者把内存耗尽。 se

Graphpad绘制森林图:

基本的原理也就是:提供数据生成主体(均值、区间、权重),图表组件定制(量程、坐标轴、辅助线),图表内容结合: 森林图:以无效线(横坐标刻度为0或1)为中心,结合了数字、文本、图形,同时展示各研究以及汇总研究结果的综合图形。) 黑点:代表每个研究效应量的点估计值 方块代表每个研究所占的权重,权重越大方块的面积越大 线段长度:代表每个研究效应量的95%可信区间 菱形:代表meta分析综合各个研究的汇