第六章 Flink中的时间和窗口 时间语义 上图是数据流式处理过程,涉及到两个重要的时间点:事件时间(Event Time)和处理时间(Processing Time)。 事件时间(Event Time):即数据产生的时间; 处理时间(Processing Time):即数据真正被处理的时刻; 我们在处理数据时,以哪种时间作为衡量标准,就是所谓的时间语义问题(Notions of Time)。由于分布式系统中 人工智能 2025年06月25日 99 点赞 0 评论 20766 浏览
中级经济师经济基础部分考点梳理(17) -写给报考中级经济师的小伙伴们 2022年10月30日 周日 深圳 晴1118/1000 【主题】经济学常识 【字数】1349 离中级经济师考试不到2周,大家准备得如何?哈哈,我还是按照我的节奏来梳理考点吧。 今天的简文将分享经济基础第25章“抽样调查”考点的梳理,这一章的考点共11个,分别如下: 1、抽样调查的基本概念 2、概率抽样和非概率抽样(含义、特点、非概率抽样的4个方法) 3、抽 人工智能 2025年05月07日 50 点赞 0 评论 20777 浏览
jetson orin nano super AI模型部署之路(二)保姆级最好用AI环境配置 对于产品发布来说,最合适的环境配置方式是使用docker,产品和环境可以一起发布,用户会得到最好的使用体验。jetson orin nano super 的AI docker环境配置有两个难点:(1)CPU是arm架构 (2)super要使用jetpack 6.2[L4T 36.4.3] 人工智能 2025年05月19日 159 点赞 0 评论 20783 浏览
Jenkins容器化部署 部署Jenkins 创建本地数据保存目录mkdir /root/jenkins。 启动容器 docker run -itd --name jenkins \ -u root \ -p 8080:8080 -p 50000:50000 \ --restart always \ --env TZ=Asia/Shanghai \ --env JAVA_OPTS="-server -Xms512m 人工智能 2025年06月14日 173 点赞 0 评论 20824 浏览
深度解析六大AI爬虫工具:crawl4ai、FireCrawl、Scrapegraph-ai、Jina、SearXNG、Tavily技术对比与实战指南 一、引言在AI大模型时代,数据获取与处理是构建智能应用的核心环节。传统爬虫面临技术门槛高、反爬应对复杂、动态内容处理困难等挑战,而AI驱动的爬虫工具通过融合大语言模型(LLM)、图神经网络、自动化解析等技术,正在重塑数据抓取范式。本文将深度测评6款主流AI爬虫工具,从技术原理、核心功能、实战场景到性能对比 人工智能 2025年08月06日 134 点赞 0 评论 20866 浏览
Apache Flink——侧输出流(side output) 前言 flink处理数据流时,经常会遇到这样的情况:处理一个数据源时,往往需要将该源中的不同类型的数据做分割(分流)处理,假如使用 filter算子对数据源进行筛选分割的话,势必会造成数据流的多次复制,造成不必要的性能浪费; flink中的侧输出,就是将数据流进行分割,而不对流进行复制的一种分流机制。flink的侧输出的另一个作用就是对延时迟到的数据进行处理,这样就可以不必丢弃迟到的数据; 简单理 人工智能 2025年06月06日 114 点赞 0 评论 20874 浏览
数据质量问题初探 当前系统出现了一些数据质量问题, 现象 例如在合同关闭后,仍然缺乏预计交货时间,虽然一开始签订的时候可以不存在。还有就是 部分必要字段为空。 数据明细的条目丢失 原因分析 用户在录入时缺乏必要的校验 数据在多系统传输时,缺乏逻辑校验 系统在数据导出时,缺乏条目数据的校验 在导入数据前缺乏数据正确性的校验 解决思路 通过卡点方式对数据进行逻辑校验,例如在消费应用中,对导入的数据进行逻辑合规性验证。 人工智能 2025年06月05日 82 点赞 0 评论 20905 浏览