人工智能

2022-04-20-Flink-45(四)

1. Transformation map import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.streaming.api.datastream.DataStreamSource; import org.apache.flink.streaming.api.environment.Str

NLP之从句子中提取单词步骤

浅层自然语言处理技术可以用来从句子中提取单词,其步骤为: 1、将句子转换为小写 2、删除停顿词(这些是在一种语言中常见的词。诸如 for、 very、 and、 of、 are 等词是常见的停止词) 3、从给定的文本序列中提取 n-gram,即 n 个项目的连续序列(简单地增加 n,模型可以用来存储更多的上下文) 4、分配一个句法标签(名词,动词等) 5、通过语义/语法分析器方法从文本中提取知识,

技术争鸣——关于OLAP引擎你所需要知道的一切

1. 主流OLAP引擎技术原理大阅兵 1.1 何为OLAP 在前文 BI系统与ClickHouse:探索式BI的OLAP技术演进之路 中已经涉及过OLAP的概念,这里再简要介绍下。 60年代,关系型数据库之父E.F.Codd提出了关系模型,促进了OLTP( OnLine Transaction Processing,联机事务处理)模型的发展。 1993年,E.F.Codd提出了OLAP(OnLin

Android IO 框架 Okio 的实现原理,到底哪里 OK?

前言 大家好,我是小彭。 今天,我们来讨论一个 Square 开源的 I/O 框架 Okio,我们最开始接触到 Okio 框架还是源于 Square 家的 OkHttp 网络框架。那么,OkHttp 为什么要使用 Okio,它相比于 Java 原生 IO 有什么区别和优势?今天我们就围绕这些问题展开。 本文源码基于 Okio v3.2.0。 思维导图 1. 说一下 Okio 的优

《教育心理学》学习2-6

2.2.3记忆训练程序 古希腊和罗马人区分了两种类型的记忆:“天生”(natural)记忆和“人工”(artificial)记忆。前者是与生俱来的,每个人都可以本能地使用;后者可以通过大量记忆方法的学习和实践来训练和提高。为了提高人们记忆的效率,后天进行有针对性的策略训练是一种有效的方式。 先前的研究显示,训练能够增加记忆术的使用效率,对于老年人(Jennings,Webster, Kley

HBase——RegionServer宕机数据恢复

前言 HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不

现代数据栈,谁主沉浮?

欢迎访问我的博客: 2022年已经没有人谈大数据这个概念,不是它失败了,恰恰是因为它成功了。成功技术的吊诡之处在于,它最终会被认为是理所当然,消失在背景音中。 从最近的新闻热点里,我们不难看到大数据的身影,例如大数据加持的金税四期,疫情防控下的大数据时空伴随者等等…… 随着SaaS的普及和深入,数据驱动成为共识,云计算以及云端数据仓库的发展,逐渐有了

数据版本发布计划

以前曾经经理有一些失败的经验,例如通过长期数据沉淀发现,在数据分析阶段沉淀的数据实际上没有办法支撑分析,还有就是某个项目为了一个目的进行数据建模与分析,结果经过长时间努力,数据只用了一次,然后就弃置不用了,下一次分析,又要重头开始搞数据。 为此,我觉得还是讲数据治理与数据分析作为2个单独的循环进行比较好,当然也要及时进行交互与迭代。 关于数据发布,我觉得要做到迭代模式,也就是定期向组织内部进行数