人工智能

2022-10-09-数仓职业从业困惑和焦虑

首先回答一个问题,数仓工程师的职责是什么?个人认为就是要使得数据流通起来,把数据从一个地方传输到另一个地方,在当前的大数据技术发展背景下,大多数的数仓人员都是使用SQL来实现数据的流通的,大数据技术SQL化对企业来说是好事,更容易维护,更容易找到下一个开发者,但是对从业人员是坏事,SQL谁不会写啊,换言之就是门槛低,没有较高的职业壁垒,于是我们焦虑了.... 确实如此,好用的工具必然要淘汰难用的工

从踩坑到高效选型:基于 AI Ping 平台的 20+MaaS 供应商、220 + 模型服务性能(延迟 / 吞吐 / 可靠性):深度评测与大模型选型指南

从踩坑到高效选型:基于 AI Ping 平台的 20+MaaS 供应商、220 + 模型服务性能(延迟 / 吞吐 / 可靠性):深度评测与大模型选型指南 前言 大模型选型,我个人前段时间就面临这个问题,我们团队第一次要做智能客服项目,明确要求选 “性价比高、性能稳” 的国内大模型

基于飞算JavaAI的在线图书借阅平台设计与实现

引言在数字化转型背景下,高校图书管理系统面临智能化升级需求。本文以飞算JavaAI为开发工具,通过智能引导式开发流程,实现一个包含用户管理、图书借阅、权限控制等核心功能的在线平台。系统采用Spring Boot + MyBatis技术栈,结合飞算AI的代码生成能力,将传统3周的开发周期压缩至3天,验证了A

深度学习(一):人工智能、机器学习与深度学习

人工智能 (AI):宏大的目标 人工智能是最广泛、最宏大的概念,它的目标是让机器能够模仿人类的智能行为,例如: 推理:像下棋程序一样,通过逻辑来做决策。 规划:为实现一个目标而制定步骤,比如无人驾驶汽车规划行驶路线。 学习:从数据中发现规律,从而提高自

AutoMQ × Ververica:打造云原生实时数据流最佳实践!

AutoMQ 与 Ververica 正式成为战略合作伙伴!在当今数据驱动的时代,企业对数据处理的速度和效率要求达到了前所未有的高度。批量处理(Batch Processing)已无法满足实时风控、实时推荐、实时监控等场景的迫切需求。流处理(Stream Processing)虽已成为必然选择,但其落

结合Seurat批量去除环境RNA污染(SoupX)2022-05-19

相似关键词 背景RNA,环境RNA,RNA污染,游离RNA background mRNAs, ambient RNA, RNA contamination, cell free mRNAs 适用背景 去除环境RNA污染是处理单细胞数据的可选项。环境RNA污染简单来说就是由于实验原因导致某些基因的转录本扩散到大多数细胞,使得部分基因在大多数细胞中均出现高表达的现象,从而影响我们对细胞类型的定义以

《计算机与人脑》:准确度

准确度这一章,是我看的最容易理解的章节。这一节,讲的是模拟计算机有限的准确度,以及数字计算机可扩展的准确度的特性。 模拟计算机,由于通过机械等控制,其准确度跟制作工艺等是强相关的。这就导致了要想达到1:1000没问题,但是想要达到1:10000,或者1:100000,就有难度了,更高的准确度就更夸张了(所以喽,外星文明想在飞船上加一道刻度,就等于带走了大英百科全书,这个只能是一个美好的科学幻想了,

Multi-task Learning 理论(多任务学习)

一. 多任务学习理论 1.1 多任务学习的定义 如果有个任务(传统的深度学习方法旨在使用一种特定模型仅解决一项任务),而这个任务或它们的一个子集彼此相关但不完全相同,则称为多任务学习(以下简称为MTL) 。通过使用所有个任务中包含的知识,将有助于改善特定模型的学习 多任务学习本质上是迁移学习的一种方式,通过共享表示信息,同时学习多个相关任务,使这些任务取得比单独训练一个任务更好的效果,可以在一定程

又见8+基于单细胞marker基因的纯生信文章,仍然可以模仿并超越!

本文的思路是通过单细胞数据分析识别了某种免疫细胞特有的marker基因,然后利用这些基因进行预后模型的构建。事实上,预后模型的文章已经不好发了,甚至有的审稿人看到预后模型就反感,因为实在是太多了,而且预测效能普遍不行。那么如何做的比这篇文章还要好呢?鉴于最近泛癌分析以及肿瘤分型分析比较好发,小编做的免疫细胞marker的泛癌分析以及肿瘤分型,内容是这些文章的2倍以上,均发表到8+杂志

2022-05-26我的数据是用主成分分析还是冗余分析呢?1

背景 主成分分析PCA(Principal Component Analysi)和冗余分析RDA(Redundancy analysis)都是数据分析的一种方法,都是在做降维处理,我遇到数据的时候该选择那种方法做呢? 首先什么是降维? 将多维空间(多个原始测定指标)的数据点尽可能排列在可视化的低维空间。简单理解就是,测定的一种原始指标(比如株高)就是一个维度。假设,我为了了解某个物种的几个品种的生