人工智能

读《决战大数据》的自我认知

本打算是死磕这本《决战大数据》,今天的感觉也是要被这本书磕死,本打算着想要探秘大数据的应用之谜,而自从翻开这本书后,感觉是一直被教育着,如何成为一名合格的数据分析师,本希望能获取一些大数据工作原理的一些浅薄知识,以补不足,那晓得这里面大多数是作者的工作经验的分享与总结,感觉上又是一次与沉没成本相互纠结的抉择,哎…… 《决战大数据》 先总结一下今天的认知吧,好在是,每天都能进步一点点,

Flask框架——基于Celery的后台任务

上篇文章我们学习了Flask框架——MongoEngine使用MongoDB数据库,这篇文章我们学习Flask框架——基于Celery的后台任务。 Celery 在Web开发中,我们经常会遇到一些耗时的操作,例如:上传/下载数据、发送邮件/短信,执行各种任务等等。这时我们可以使用分布式异步消息任务队列去执行这些任务。 Celery是一款非常简单、灵活、可靠的分布式异步消息队列工具,可以用于处理大量

大数据之Flink

1、流计算的基本概念 1.1 批处理与流处理 在大数据处理领域,批处理与流处理一般被认为是两种截然不同的任务,一个大数据框架一般会被设计为只能处理其中一种任务。比如,Storm 只支持流处理任务,而 MapReduce、Spark 只支持批处理任务。 通过灵活的执行引擎,Flink 能够同时支持批处理任务与流处理任务。在执行引擎层级,流处理系统与批处理系统最大的不同在于节点间的数据传输方式。 如下

为什么将大文件进行切片,比上传整个文件提升上传效率

1、假设一下子上传一个十几个G的大文件到服务器,对方服务器的剩余空间有可能装不下;将大文件进行切片,那上传的时候,对方就会以分片的形式进行储存。假设对方有多台服务器,其他切片还会分布式存储到别的机器上。不同机器上的切片还会进行切片的备份。理论上来说,提升了上传的稳定性和可靠性。 2、切片的工作是客户端做的,一个切片(block)默认大小为128兆。可以用128兆来区分是大文件还是小文件。 3、客户

自编码器 AE(AutoEncoder)程序

原文链接 1.程序讲解 (1)香草编码器 在这种自编码器的最简单结构中,只有三个网络层,即只有一个隐藏层的神经网络。它的输入和输出是相同的,可通过使用Adam优化器和均方误差损失函数,来学习如何重构输入。 在这里,如果隐含层维数(64)小于输入维数(784),则称这个编码器是有损的。通过这个约束,来迫使神经网络来学习数据的压缩表征。 input_size = 784 hidden_size = 6

2022-06-12

        我们所做的任何事情和要实现的任何目标,都需要使用一定的资源才能完成,客观上都存在着一个理想的资源使用的情形:       理想的资源使用的情形=有效的物质资源X有效的时间资源X有效的精神资源       但是,现实中资源使用的情形常常是这样的:       现实中资源使用的情形=(有效的物质资源+无效的物质资源)X(有效的时间资源+无效的时间资源)X(有效的精神资源+无效的精神资源

基于R语言的微生物群落组成多样性分析——PCA分析

    PCA,即主成分分析(Principal Component Analysis),是一种考察多个变量间相关性的降维统计方法,其原理是设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法(摘自百度百科)。     通俗来说,就是将数据从高维映射到低维以达到降低特征维度的目的。计算时,主要通过对协方差矩阵进

k8s集群StatefulSets的Pod优雅调度问题思考

1.聊聊什么是StatefulSet的分区滚动更新吧?什么场景可以使用分区更新?什么情况分区更新会失效? 先说一下StatefulSet的更新策略 StatefulSet的.spec.updateStrategy 字段可以配置和禁用掉自动滚动更新 Pod 的容器、标签、资源请求或限制、以及注解。 spec.updateStrategy 有两个允许的值:RollingUpdate和OnDelet

Flink 源码之 KafkaSource

Flink源码分析系列文档目录 请点击:Flink 源码分析系列文档目录 前言 FLIP-27: Refactor Source Interface - Apache Flink - Apache Software Foundation提出了新的Source架构。该新架构的分析请参见Flink 源码之新 Source 架构。针对这个新架构,Flink社区新推出了新的Kafka connector