人工智能

Enterprise Data At HUAWEI(六)

基于PDCA的数据质量管理框架 什么是数据质量 华为数据质量指“数据满足应用的可信程度”,有以下6个维度 完整性:数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。 及时性:及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时;数据交付时间过长可能导致分析结论失去参考意义。 准确性:真实、准确地记录原始数据,无虚假数

nlp-parser:一个用于依存句法分析的小工具-conll格式-支持sql做更复杂的分析

项目功能 分析中文文本的依存关系, 生成 conll 格式的中间文件, 以及本地 sqlite3 数据库文件, 方便统计各种 词, 词性 之间的不同依存关系频次 主要功能: 把中文文本解析为依存关系 包含分词,词性标注 结果存储为 conllu 文本和 sqlite3: 生成的 sqlite 文件方便用 sql 做各种统计分析 支持自定义正则对文本按行预处理: 命中正则的字符串将会删除 项目源

Kotlin Flow 背压和线程切换竟然如此相似

前言 上篇分析了Kotlin Flow原理,大部分操作符实现比较简单,相较而言背压和线程切换比较复杂,遗憾的是,纵观网上大部分文章,关于Flow背压和协程切换这块的原理说得比较少,语焉不详,鉴于此,本篇重点分析两者的原理及使用。 通过本篇文章,你将了解到: 什么是背压? 如何处理背压? Flow buffer的原理 Flow 线程切换的使用 Flow 线程切换的原理 1. 什么是背压? 先

训练深度学习模型的技巧

最核心的技巧:数据集足够大且标记良好,就可以在不更改模型或训练设置的情况下获得良好的结果 但是,获得大量标记良好的数据集是有很高成本的,当数据集达不到上述要求时,可以遵循下面的技巧。 第一:先使用默认设置获得一个基准性能(baseline performance),找出需要改进的地方。借助wandb/tensorboard等工具,查看:train losses, val losses, mAP,P

flink - 实时 - UV统计 - 布隆过滤器实现

1.知识点 scala输入输出样例类 keyBy并行度为1计算UV的技巧 map(data => ("uv", data.userId))..keyBy(_._1) keyBy并行度>1 计算UV的技巧 自定义MapFunction,随机自定义key+"uv" Random.nextString(10) + "uv" WindowedStream.trigger的使用

时间平方根法、时间对数法笔记

规范求取固结系数的方法有时间平方根法和时间对数法,基本原理都是利用理论曲线和试验曲线的形状相似性,配合经验,找某一固结度下(时间平方根法选的是90%固结度,时间对数法选的是50%固结度)理论曲线上时间因数相当于试验曲线上的某一时间值。时间平方根法步骤如下:先根据试验数据绘制变形与时间平方根的关系曲线,然后找到曲线上初始阶段的直线段,延长交与纵轴,交点叫做理论零点,再过理论零点做一条直线,新直线是老

Dispather - 任务调度系统方案设计

1. 概述 计算平台的一个核心功能,是任务调度,包含任务之间的依赖处理、任务之间传参、任务的执行等。 本文重点分析和介绍任务调度的需求总结、数据库设计与架构设计。 2. 需求总结 2.1. 术语介绍 术语 Pipeline,即管线,这里指实际的药物研发管线,例如plk1、zinc Job,或Workflow,即任务流,是一系列Task的有向无环图,包含所属Pipeline、创建人、描述、定时配置

心理学研究方法(28)

中原焦点团队网络中26期坚持分享第944天(20220907) 相关是用以描述两个变量之间关系的测度,相关的思想是高尔顿提出的,广泛使用的是皮尔逊积矩相关系数,斯皮尔曼提出著名的衰减校正公式。 双变量正面分布呈一个三维的表面,所有双变量分布的特征:相对X的每一个值,与之关联的Y值的分布都是正态的,反之亦然;X与Y为线性关系;散点分布具有同方差性。 相关系数取值范围是—1.0小于等于r小于等于+1.