人工智能

63、亲爱的晓洁

寒假,他来了······可是,却变了,他只留下一封信。 ······我的心,像是被掏空了一样······    ——苏菲日记 亲爱的晓洁 我现在要和你说一件事,这件事,我以前一直没有想好怎么和你说。你知道的,我总是有心事的时候,第一个想到的只有你。但是,这件事情,我还是犹豫了好久······现在才想你倾述······原谅我,晓洁! 晓洁,我恋爱了,但也快失恋了,其实这根本就称不上一场爱情,起码

市场洞察所需要的“数据”,是如何搜集的呢?

市场洞察所需要的“数据”,是如何搜集的呢? 一、传统的数据收集方法 1.1一手数据 一手数据,也称之为原始数据,是指通过人员访谈、询问、问卷、测定等方式,直接获得的新数据。 收集方法:定性调查与定量调查。 定性调查:主要通过一对一“深度访谈”,例如焦点座谈会。 定量调查:主要通过向消费者发送一个结构化的调查问卷获取数据。 两者可以结合使用,先定性调查挖掘未知、深度,然后定量调查实现数

记一次canal delay 调优过程

一、现象 image.png image.png 每天夜里12点准时出现延迟告警,查看canal的监控指标,delay指标延迟在5-10分钟,blocking指标中的sink、dump趋于100%,同时canal服务的cpu及memeory很稳定40%左右。 二、分析 被告警吵的实在受不了了,于是下定决心解决这个问题。首先花了点时间研究了一下canal源码,整个canal的

【博客】数据密集型应用系统设计

什么是「数据密集型应用系统」? 当数据(数据量、数据复杂度、数据变化速度)是一个应用的主要挑战,那么可以把这个应用称为数据密集型的。 与之相对的是计算密集型——处理器速度是主要瓶颈。 其实我们平时遇到的大部分系统都是数据密集型的——应用代码访问内存、硬盘、数据库、消息队列中的数据,经过业务逻辑处理,再返回给用户。 image.png 很多软件都是在解决不同场景下的数据存储和检索问题——

Hadoop三种文件存储格式Avro、Parquet、ORC

也是知识,要了解 URL: 为什么我们需要不同的文件格式? 对于 MapReduce 和 Spark 等支持 HDFS 的应用程序来说,一个巨大的瓶颈是在特定位置查找相关数据所需的时间以及将数据写回另一个位置所需的时间。这些问题随着管理大型数据集的困难而变得复杂,例如不断发展的模式或存储限制。 在处理大数据时,存储此

定义思维

一、什么是定义思维       很多人在学知识的时候,知道个大概就去实践、去应用了,我以前也老是这样,但在实践的时候,却发现自己举一反三的能力很差,总是学到啥就是啥,没办法把知识迁移应用; 问题就出在,你没有真正搞清楚这个概念。一旦你彻底定义清楚了这个概念的推演逻辑,那么这个概念的边界会变得清晰,与这个概念相关的演绎也会自然生长出来,进而变成你心理表征的一部分。  也就是说,此后你再看见它,不止

复现《nature communications》散点小提琴图+蜜蜂图

今天我们学做一下NC文章的小提琴图,有小提琴图,也有散点,其实看过之前系列文章的人如果能够联想,可以想到这个图是(ggplot分组散点图-坐标轴截断-添加四分位图-显著性检验)和(ggplot批量绘制小提琴图并添加趋势连线)的结合。只不过这篇文章的图有个特点是散点分布和小提琴图形状一致,在画散点的时候利用geom_quasirandom 代替geom_jitter即可。 image.pn

Hive 开启事务ACID 运行删和改操作

                Hive 开启事务ACID  运行删和改操作 事务表的适用场景 对于数仓中的行级数据更新删除需求比较频繁的,可以考虑使用事务表。 但平常的hive表并不建议使用事务表。因为事务表的限制很多,加上由于hive表的特性,也很难满足高并发的场景。另外,如果事务表太多,并且存在大量的更新操作,metastore后台启动的合并线程会定期的提交MapReduce Job,