人工智能

提高数据科学效率的 8 个Python神库!

在进行数据科学时,可能会浪费大量时间编码并等待计算机运行某些东西。所以我选择了一些 Python 库,可以帮助你节省宝贵的时间。 1、Optuna Optuna 是一个开源的超参数优化框架,它可以自动为机器学习模型找到最佳超参数。 2、ITMO_FS ITMO_FS 是一个特征选择库,它可以为 ML 模型进行特征选择。拥有的观察值越少,就越需要谨慎处理过多的特征,以避免过度拟合。所谓“谨慎”意思是

地球人能看懂的Hadoop

前言 hadoop 初学hadoop,网上的相关资料很多,讲解大同小异:一堆专业术语+火星文 学习起来很困难,很难探究出它的存在意义,因此本文结合自己的理解,用地球人的语言来描述hadoop HADOOP hadoop解决的是海量数据的存储和计算问题,为什么会有这种问题? 因为现在是一个信息爆炸的时代,数据量大到的一台电脑硬盘存不下,且这么大的数据量在数据汇总计算时一台电脑又算不

Linux内核通信seq_file详解

本文介绍的用法相对复杂, 简单的用法请参考 这篇文章 seq_file适用于内核需要向应用层输出信息时使用,最常见的用法是遍历内核中的一个list数据结构输出list的内容到应用层;当然也可以输出任意的数据,并且输出到应用层的数据大小没有限制,默认缓冲区是一个PAGE_SIZE,当输出的数据大于PAGE_SIZE时seq_file会把缓冲区大小翻倍,直到超过要输出的数据大小,或者把内存耗尽。 se

基于Ansible实现Apache Doris快速部署运维指南

Apache Doris 介绍 Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。 Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效!

TCGA新版数据库表达矩阵提取

本文首发于公众号:医学和生信笔记 医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。 现在使用TCGAbiolinks下载转录组数据后,直接是一个SummarizedExperiment对象,这个对象非常重要且好用。因为里面 直接包含了表达矩阵、样本信息、基因信息,可以非常方便的通过

8 Spring异步通信-Kakfa

前言:为什么选择Kafka? Kafka 相对于其它消息系统的优点 支持集群模型,扩展性好。scalability 将 Topic 分区到所有实例上,容错性好。resilient Kafka 的特点 使用 topic 发布/订阅 消息。 Topic 支持副本,分布在不同机器上。 集群的节点可以是多个 topic 的分区的 Leader 节点,而不是整个 topic 的 leader 节点。

Biogithub4--图网络学习

2022 「大规模图神经网络系统」2022最新综述:从算法到系统 (qq.com) 目前具有代表性的图神经网络框架:DGL[47]、PyTorch Geometric[48]、NeuGraph[49]、EnGN[50]、Euler[51]、PSGraph[52]、AliGraph[53]、Roc[54]、AGL[55]、PGL[56]。 DGL[47]是易于使用,高性能且可扩展的Python库,

kafka入门:一个开源的、轻量级、高吞吐、高可用的分布式消息系统

背景 随着信息技术的快速发展及互联网用户规模的急剧增长,计算机所存储的信息量正呈爆炸式增长,目前数据量已进入大规模和超大规模的海量数据时代,如何高效地存储、分析、处理和挖掘海量数据已成为技术研究领域的热点和难点问题。而如何采集和运营管理、分析这些数据也是大数据处理中一个至关重要的组成环节,这就需要相应的基础设施对其提供支持。针对这个需求,当前业界已有很多开源的消息系统应运而生,kafka就是一款当