大数据:HDFS知识体系(知其然,知其所以然) 前言 HDFS是Hadoop体系的基础,不知道各位怎么对待HDFS。反正我更多的关注一些应用层的东西,对于HDFS多有忽视。 但是每次面试的时候都要重新去背面经,我觉得这样的情况不太正常,因此耗时两天半整理了HDFS的知识体系,力求知其然也要知其所以然。 文章中有不少个人思考,希望能让各位更好的理解HDFS. 一、HDFS特性 高容错性:HDFS认为硬件总是不可靠的。 高吞吐量:HDFS为大量 人工智能 2025年05月01日 97 点赞 0 评论 1853 浏览
【kafka】kafka 在线增加分区副本数 创建 increase-replication-factor.json 文件 $ cat increase-replication-factor.json {"version":1, "partitions":[ {"topic":"testTopic","partition":0,"replicas":[0,1,2]}, {"topic":"testTopic","partition":1 人工智能 2025年08月09日 172 点赞 0 评论 1872 浏览
市场洞察所需要的“数据”,是如何搜集的呢? 市场洞察所需要的“数据”,是如何搜集的呢? 一、传统的数据收集方法 1.1一手数据 一手数据,也称之为原始数据,是指通过人员访谈、询问、问卷、测定等方式,直接获得的新数据。 收集方法:定性调查与定量调查。 定性调查:主要通过一对一“深度访谈”,例如焦点座谈会。 定量调查:主要通过向消费者发送一个结构化的调查问卷获取数据。 两者可以结合使用,先定性调查挖掘未知、深度,然后定量调查实现数 人工智能 2025年05月10日 121 点赞 0 评论 1879 浏览
跟着Nature Communications学作图--复杂散点图 复杂散点图 从这个系列开始,师兄就带着大家从各大顶级期刊中的Figuer入手,从仿照别人的作图风格到最后实现自己游刃有余的套用在自己的分析数据上!这一系列绝对是高质量!还不赶紧点赞+在看,学起来! 参考文献 本期分享的是Nature Communications上一篇关于机器学习的文章中的散点图。 这个散点图的亮点在于充分利用了散点的填充和描边属性,将两者与图形要表达 人工智能 2025年05月19日 122 点赞 0 评论 1879 浏览
Chatgpt有什么用途? Chatgpt是一款基于OpenAI的GPT-3.5和GPT-4.0开发的语言模型。作为一款语言模型,Chatgpt可以执行各种任务,例如回答问题、提供��息、生成文本、翻译语言、总结文本等等。 Chatgpt的核心是GPT(Generative Pre-trained Transformer)技术,这是一种基于Transformer的语言生成模型。GPT使用无标注文本进行预训练,具有强大的自然语 人工智能 2025年11月26日 109 点赞 0 评论 1902 浏览
流批一体随想 前言 好久不见(鞠躬 今年以来的主要工作方向之一就是部门内流批一体能力的建设与落地。虽然这个概念早已成为老生常谈,并且笔者现在还没什么fancy的成果(惭愧),但今天还是想随便写几句来聊聊。 Why? 考虑经典的Lambda Architecture。 这种架构的出现是历史必然,因为那时的流计算引擎以Storm为代表,而它们都无法提供Exactly-Once语义,所以任何一点小的扰动 人工智能 2025年08月23日 36 点赞 0 评论 1941 浏览
GeNets:发表在nature上的基因组分析网站平台工具 2018年6月Nature Methods上发表了一篇关于机器学习分析特定基因集内部关系工具的文章,简单来说就是,通常我们做了差异基因分析得到一个基因集合,然后会用GO/KEGG富集进行进一步分析,但是该工具给我们提供了另一种可能,通过对差异基因集进行机器学习训练最终得到部分关键的基因以及基因间相互作用。该工具以网站的形式方便大家使用,目前只支持人的基因集输入,笔者输入数据后的运行结果如下图所示, 人工智能 2025年08月14日 92 点赞 0 评论 1947 浏览
细胞类型重复性验证----MetaNeighbor(2) 继续上面MetaNeighbor 1的学习,我们做第二个测试数据,第二组场景的测试。 ========测试数据2============ 第二个数据集,基于已经训练好或者注释好的参考数据集,来衡量新数据集细胞类型注释的准确性。这个测试数据是采用的BICCN,一个小鼠初级运动皮层的细胞。可以去作者的paper链接中下载。 library(MetaNeighbor) library(SingleCel 人工智能 2025年04月21日 125 点赞 0 评论 1953 浏览
一文搞懂池化层!Pooling详解(魔改篇) 一. Overlapping Pooling(重叠池化) 重叠池化正如其名字所说的,相邻池化窗口之间会有重叠区域,此时sizeX > stride 提出于ImageNet Classification with Deep Convolutional Neural Networks 相对于传统的no-overlapping pooling,采用Overlapping Pooling不仅可 人工智能 2025年07月30日 89 点赞 0 评论 1990 浏览