人工智能

Hive 开启事务ACID 运行删和改操作

                Hive 开启事务ACID  运行删和改操作 事务表的适用场景 对于数仓中的行级数据更新删除需求比较频繁的,可以考虑使用事务表。 但平常的hive表并不建议使用事务表。因为事务表的限制很多,加上由于hive表的特性,也很难满足高并发的场景。另外,如果事务表太多,并且存在大量的更新操作,metastore后台启动的合并线程会定期的提交MapReduce Job,

BASE理论

BASE理论 BASE是Basically Available(基本可用)、Soft state(软状态)和 Eventually consistent(最终一致性)三个短语的缩写。BASE理论是对CAP中一致性和可用性权衡的结果,其来源于对大规模互联网系统分布式实践的总结, 是基于CAP定理逐步演化而来的。BASE理论的核心思想是:即使无法做到强一致性,但每个应用都可以根据自身业务特点,采用适

答读者问(6):单细胞TPM矩阵如何分析?

问题 一、有的文章只提供TPM的单细胞表达矩阵,可以用seurat分析吗? 二、分析流程和用count矩阵有什么不同? 三、10X的单细胞转录组数据的标准化需要考虑基因长度吗? 先来看看第3个小问题 10X的单细胞转录组数据的标准化需要考虑基因长度吗? 答案是不需要。 我们看一下seurat里面NormalizeData()函数是如何做标准化,然后求Log。 test.seu <-

Graphpad绘制ROC曲线

Graphpad绘制ROC曲线 接受者操作特性曲线(receiver operating characteristic curve,简称 ROC 曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚惊概率为横轴,击中概率为纵轴所组成的坐标图

Claude 3.7 全解析:AI 代码助手的巅峰之作?

最近 AI 领域的新模型层出不穷,Claude 3.7 的发布无疑是最受瞩目的事件之一。从 Claude 3.5 的成功,到如今对抗 OpenAI O3 Mini 和 DeepSeek R1 的挑战,这款新一代 AI 是否真的能超越前辈,成为最强的 AI 代码助手? 在深入研究和亲身体验后,这篇文章将完整

数据采集助力AI大模型训练

引言 使用抓取浏览器采集ebay商品页面 选购亮数据AI训练数据 总结 引言   AI技术在今天已经是我们工作生活中不可或缺的工具,很多小伙伴也在致力于训练AI模型。高质量的数据是训练强大AI模型的核心驱动力,无论是自然语言处理、计算机视觉还是推荐系统,数据的规模、多样性和准确性直接决定了模型的性能和泛化能力。然而,在实

Vscode的AI插件 —— Cline

简介vscode的一款AI辅助吃插件,主要用来辅助创建和编辑文件,探索大型项目,使用浏览器并执行终端命令(需要多个tokens),可以使用模型上下文协议(MCP)来创建新工具并扩展自己(比较慢)。 支持多个AI的API接入,比如Chatgpt,Deepsee

读《决战大数据》的自我认知

本打算是死磕这本《决战大数据》,今天的感觉也是要被这本书磕死,本打算着想要探秘大数据的应用之谜,而自从翻开这本书后,感觉是一直被教育着,如何成为一名合格的数据分析师,本希望能获取一些大数据工作原理的一些浅薄知识,以补不足,那晓得这里面大多数是作者的工作经验的分享与总结,感觉上又是一次与沉没成本相互纠结的抉择,哎…… 《决战大数据》 先总结一下今天的认知吧,好在是,每天都能进步一点点,