大数据入门(一)—— 数据仓库(数仓)基本概念 前言: 最近做需求的时候,涉及到了数仓相关的知识。 简单介绍下数仓的一些基本概念。 以及,了解下大数据开发的一些基本流程。 一、什么是数仓? 数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出的。 1991年,他写了一本书,叫《Building the Data Warehouse》(建立数据仓库),书中提出的:数据仓库(Data Warehouse)是一个面向主题的 人工智能 2025年04月22日 86 点赞 0 评论 863 浏览
细胞类型重复性验证----MetaNeighbor(2) 继续上面MetaNeighbor 1的学习,我们做第二个测试数据,第二组场景的测试。 ========测试数据2============ 第二个数据集,基于已经训练好或者注释好的参考数据集,来衡量新数据集细胞类型注释的准确性。这个测试数据是采用的BICCN,一个小鼠初级运动皮层的细胞。可以去作者的paper链接中下载。 library(MetaNeighbor) library(SingleCel 人工智能 2025年04月21日 125 点赞 0 评论 1048 浏览
大数据:HDFS知识体系(知其然,知其所以然) 前言 HDFS是Hadoop体系的基础,不知道各位怎么对待HDFS。反正我更多的关注一些应用层的东西,对于HDFS多有忽视。 但是每次面试的时候都要重新去背面经,我觉得这样的情况不太正常,因此耗时两天半整理了HDFS的知识体系,力求知其然也要知其所以然。 文章中有不少个人思考,希望能让各位更好的理解HDFS. 一、HDFS特性 高容错性:HDFS认为硬件总是不可靠的。 高吞吐量:HDFS为大量 人工智能 2025年05月01日 97 点赞 0 评论 1088 浏览
从人类到 AI:意群阅读的奥秘与英语学习的高效技巧 一、人类的英语阅读理解:意群如何加速大脑处理? 1.1 什么是意群(Chunking):自然语义单元意群,顾名思义,就是将语言中具有内在联系的部分组合在一起,形成一个相对独立且完整的语义单元。举个简单的例子,在句子“I love reading books in the 人工智能 2025年04月24日 196 点赞 0 评论 1265 浏览
三角形的内角和是180度吗? 大家好,我是小涂涂,我今天要讲的是三角形的内角和是180度吗?因为好多人一看见类似求出三角形的内角和是多少度的这种题,他们一般都会算出来是180度,180度也不是错的。 我们现在是可以肯定一点,就是任意一个三角形,就比如说,锐角三角形,直角三角形,钝角三角形,等等等等,它 人工智能 2025年04月19日 99 点赞 0 评论 1331 浏览
R稀疏矩阵转化稠密矩阵|使用as.matrix()报错:Cholmod error 'problem too large' 在进行一些数据分析是经常会需要将一个数据对象转化为矩阵,以及稀疏矩阵(sparse matrix)和稠密矩阵之间的互化。 问题&报错 在R环境中,用的非常普遍的函数就是as.matrix(),但是,当转化的稀疏矩阵对象非常巨大的时候,例如细胞数目非常多的单细胞数据,R就会报如下类似的错误: Error in asMethod(object) : Cholmod error 'probl 人工智能 2025年04月30日 147 点赞 0 评论 1511 浏览
2. 从机器学习的基本概念开始 从我个人意愿来说呢,更想跳过这一章节。为什么呢?因为对我自己而言,再重温机器学习的基本概念,意义并不大,毕竟算法的代码实现都在玩了,基本概念也是清楚的,又不用参加考试,那么就更没有必要将概念教条式的背下来了。 不过,考虑到学习机器学习的还是存在一批“纯白”,甚至于是转行过来的,这些概念就有似乎有必要了。记得前段时间,我有个前同事,就报了一个人工智能的学习班。她的专业以及技能偏向,应属于广告营销领域 人工智能 2025年05月07日 131 点赞 0 评论 1552 浏览
多维学习 不读书的人,没什么好焦虑的。 学习的秘密在于同时调动多维度感官。 真正的学习绝不仅仅涉及思维这一个维度,它包含视觉、听觉、味觉、嗅觉、触觉等所有感知维度。 知识和智慧不是一回事,智慧是去实践。知识中的很大一部分存在于潜意识中,这部分知识如果不去运用就得不到很好的发展。 纸上的知识是一维的,而躬行出来的认知则是多维的。所以在人的成长过程中,除了读书,更重要的还是运用实践、经世致用啊! 对于学习,特别 人工智能 2025年03月20日 37 点赞 0 评论 1613 浏览
【AI 大模型】RAG 检索增强生成 ④ ( 向量相似度计算 | 余弦距离 | 欧式距离 | OpenAI 文本向量模型 | 手动实现的 余弦相似度 和 欧氏距离 函数计算 ) 文章目录 一、向量相似度计算 二、余弦距离 1、余弦距离 概念 2、余弦距离 特点 3、余弦距离 适用场景 4、余弦距离 代码示例 三、欧式距离 1、欧式距离 概念 2、欧式距离 特点 3、欧式距离 适用场景 4、欧式距离 代码示例 四、OpenAI 文本向量模型 1、OpenAI 的 text-embedding-ada-002 文本向量模型 2、使用 人工智能 2025年04月24日 97 点赞 0 评论 1648 浏览
华为数据之道|03 差异化的企业数据分类管理框架|②以统一语言为核心的结构化数据管理 结构化数据包括基础数据、主数据、事务数据、报告数据、观测数据、规则数据。 结构化数据的共同特点是以信息架构为基础,建立统一的数据资产目录、数据标准与模型。 基础数据用于对其他数据进行分类,在业界也称作参考数据。基础数据通常是静态的(如国家、币种),一般在业务事件发生之前就已经预先定义。它的可选值数量有限,可以用作业务或IT的开关和判断条件。当基础数据的取值发生变化的时候,通常需要对流程和IT系统 人工智能 2025年04月21日 145 点赞 0 评论 1694 浏览