数据结构与算法

TCGAbiolinks包报错:“Can't subset columns past the end”

2022年4月,TCGA数据库进行了一次更新,原来的HT-RNASeq数据被替换成了Star-RNASeq,这导致原有的TCGAbiolinks包能正常下载数据,但是不能用GDCprepare函数正常合并下载的数据集。如果用之前版本的包,在尝试这一步的时候会报错。 ERROR: Can't subset columns past the end 解决的办法就是升级TCGABiolinks这个包,

多线程事务怎么回滚

背景介绍 1.最近有一个大数据量插入的操作入库的业务场景,需要先做一些其他修改操作,然后在执行插入操作,由于插入数据可能会很多,用到多线程去拆分数据并行处理来提高响应时间,如果有一个线程执行失败,则全部回滚. 2.在spring中可以使用@Transactional注解去控制事务,使出现异常时会进行回滚,在多线程中,这个注解则不会生效,如果主线程需要先执行一些修改数据库的操作,当子线程在进行处理出

Select基础查询

一、select命令格式 查看表里的行:select 表头名列表 from 库名.表名; 查看表里与条件匹配的行:select 表头名列表 from 库名.表名 where 查询条件 ; 二、where的基础条件 分类 命令/符号/... 说明 数值比较 = 相等 != 不相等 > 大于 >= 大于等于 < 小于 &l

Seurat分组随机选取细胞数实战(随机采样后找亚群DEG) 2022-06-01

关键词 随机取样细胞 Downsample cells 分组随机选取细胞 适用背景 之前的博客提到,R语言处理大数据效率较低,耗时长,一种解决方案是可以转用Python语言流程,但如果对Python语言比较陌生,任务又急,那可以采用另一种方案——分组随机取样。 尽管Seurat这个软件包功能极其强大,但是当细胞数达到几十万甚至上百万时,把常规流程跑一遍少则几天,多则几周,实在是极其消耗时间。而

每天一个关键词,0基础非专业人士的SQL学习攻略大纲,像使用excel一样使用SQL

毫无疑问现在是一个数据的时代,我们的工作就是在跟各种各样的数据打交道,所以懂得数据分析数据处理就很重要,但是一说到数据或者是数据库,总有一种让人觉得很难的感觉,一想到要去写代码就感觉这不是一个非技术人员可以搞定的事情。 但是,同样是写SQL命令,如果我们的目标并不是为了成为一名程序员,我们不需要去考虑代码的优化,各种各样的配置等等的问题,只是把SQL当作是Excel一样,用来处理工作中的一些数据查

当代码开始替我们心动,算法时代的罗曼蒂克消亡录

文章目录 第一章 数字红线的编织逻辑 1.1 婚恋市场的梯度下降 1.2 情感神经网络的过拟合 第二章 量化爱情引发的数据危机 2.1 心动指标的标准化困境 2.2 数字分身带来的认知失调 第三章 算法黑箱中的认知革命 3.1 反向传播的社交礼仪 3.2 注意力经济的爱情买卖 第四章 技术迷雾中的人性微光 4.1 无法编码的瞬间 4

肝了三晚,终于吃透了Druid连接池

前言 作为一个java程序员,数据库的JDBC几乎每天都在做,数据库连接池Druid每天也在使用,但可能用起来太简单了(spring中引入依赖即可),往往忽略了连接池的意义和优化 本文从源码的角度分析Druid的常用配置及原理 连接 当我们程序需要访问数据库时,需要创建一个本地到数据库服务的网络连接,此时本地代码就相当于一个数据库的客户端,可以通过这个连接去访问数据、执行sql,如下 Driver

iTAK:在线预测全基因组转录因子TF,转录调节因子TR与蛋白激酶PK

前言 康奈尔大学,FeiLab的一个预测工具。 iTAK 是依赖于数据库的用于从蛋白质或核苷酸序列中识别植物转录因子 (TF)、转录调节因子 (TR) 和蛋白激酶 (PK),然后将单个 TF、TR 和 PK 分类为不同的基因家族的工具。 本人能力有限,本文可能存在描述不当与错误的地方,请仔细辨别后使用。 鉴定与依据 TFs 和 TRs 的识别和分类是基于主要从 PlnTFDB (Perez-Rod