人工智能
R语言编程-Tidyverse 书籍 - 数据清洗
1 描述统计
不同概率分布就是不同随机现象规律性的数学描述。
统计学最常用的四大概率分布:正太分布,t分布, 卡方分布,F分布。
数据分布形状的统计量: 偏度(skewness, 是否对称), 峰度(Kurtosis,以标准正太分布为基准)
多个统计参数分析- rstatix::get_summary_stats(), dlookr::desicribe()
列联表- janitor包提供的ta
Hbase——运行原理
一、Hbase的架构
架构角色
Region Server
Region Server 为 Region 的管理者,其实现类为 HRegionServer,主要作用如下:
对于数据的操作:get, put, delete;
对于 Region 的操作:splitRegion、compactRegion。
Master
Master 是所有 Region Se
跟着Nature Ecology&Evolution学作图:R语言ggmsa包展示多序列比对结果
论文
#code-availability
论文没有权限下载
但是查看数据代码链接的时候发现github主页上提供了论文的下载链接
论文中的图做的都非常好看,而且提供数据和代码,我们可以找来学习
数据代码链接
跟着Nature Plants学作图:R语言ggplot2画分组折线图和置信区间
论文
The flying spider-monkey tree fern genome provides insights into fern evolution and arborescence
#Sec44
数据下载链接
总结一下近期(2022-09)学习的开源软件(二)
这一篇文章总结一下数据相关的两个开源软件:ckan 和 watchmen。
很多企业在做数字化转型,尤其是很多公司在做DCMM(数据管理能力成熟度模型)认证,除了熟悉标准条款等工作以外,我们还可以通过学习一些软件的功能和设计来消化理论知识,扩大相关知识面。面对专家的时候才能从容、自信,轻松吸收专家的指导意见。
CKAN
CKAN is an open-source DMS (dat
433. 【数据库技术基础】大数据的特征
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”。业界通常用 “4V” 来概括大数据的特征。
大量化(Volume)指数据体量巨大。随着 IT 技术的迅猛发展,数据量级已从 TB 发展至 PB 乃至 ZB,可称海量、巨量乃至超量。当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量已经接近 EB 量级。
多样化(Var
单细胞 & 空间整合去批次方法比较(2)
作者,追风少年i
开头先放一张marker表,供大家参考
marker list
这一篇内容很简单
接上一篇,上一篇文章单细胞 & 空间整合去批次方法比较介绍了以下几种方法整合去批次的代码
CCA
merge
SCT
merge & SCT
merge加harmony
SCT && harmony
关于上述方法我只强调一点,就是ScaleData的时
elasticsearch多字段聚合实现方式
1、背景
我们知道在sql中是可以实现 group by 字段a,字段b,那么这种效果在elasticsearch中该如何实现呢?此处我们记录在elasticsearch中的3种方式来实现这个效果。
2、实现多字段聚合的思路
实现多字段聚合的思路
从上图中,我们可以知道,可以通过3种方式来实现 多字段的聚合操作。
3、需求
根据省(province)和性别(sex)来进行聚合,然后