音视频 - 小智博客

保险/金融咨询大模型智能办理项目代码——运行说明与项目架构

本文档说明如何运行本项目，以及项目源代码架构与主要模块介绍。完整方案设计见保险/金融咨询大模型智能办理：基于工具调用与策略编排的完整方案及源代码。代码以及文档参考： 源代码链接引导式对话系统（上）：应用场景、业务模式与技术架构引导式对话系统（下）：槽位抽取、Funct

音视频 2026年03月02日 113 点赞 0 评论 14737 浏览

零成本自建文件转换神器，支持音视频/文档/图片全格式转换

零成本自建文件转换神器，支持音视频/文档/图片全格式转换前言之前为了把一个 PDF 转成 Word，在线上转换网站充值了 30 块会员，结果转出来的格式全乱了，段落和表格面目全非。还有一次把一份含有人像照片的 PPT 传到某个转换平台，之后在搜索引擎里居然出现了那张照片的痕迹，说不清是巧合还是什么&#xff0c

音视频 2026年05月03日 121 点赞 0 评论 14725 浏览

CogVideoX - Fun：以 CogVideoX 框架为基，开启无限长 AI 视频生成新时代

目录引言一、CogVideoX-Fun简介二、功能特点三、技术原理四、应用场景结语引言在人工智能的浪潮中，AI视频生成技术正逐渐成为内容创作的新宠。其中，CogVideoX-Fun作为一款基于CogVideoX的整合包，不仅支持从文字到视频的生成，还拓展了视频分辨率的界限，为创作者提供了更广阔的创

音视频 2025年04月21日 52 点赞 0 评论 14545 浏览

三个免费转换 MP3 音频不花钱的网站值得收藏

音频转换的需求也越来越多。无论你是想要将播客、音乐或其他形式的音频文件转换为MP3格式以便于分享和播放，还是需要转换其他格式以适应特定设备或软件的要求，在线音频转换工具都是一个非常方便的选择。以下是三个国外知名的免费在线音频转换为MP3的网站推荐： 三个在线的 MP3 音频转换网站 1. Online-Convert Online-Convert

音视频 2025年09月07日 31 点赞 0 评论 14541 浏览

计算机视觉cv2入门之实时手势检测

前边我们已经讲解了使用cv2进行图像预处理以及针对实时视频流文件的操作方法，这里我们通过实时手势检测这一案例来学习和实操一下。大致思路根据手势的种类以及指定手势图片数量来构建一个自己的手势图片数据集 CNN模型训练手势图片数据集使用训练好的模型进行实时预测手势图片数据集的构建经典的手势图片数据集有很多，但是都比较大，下

音视频 2025年05月26日 140 点赞 0 评论 14513 浏览

b站视频如何下载到本地，推荐6个常用的工具

下载B站视频到本地需要借助一些工具，因为B站官方本身不提供直接下载视频到电脑本地的功能（App端可以缓存，但文件是加密的，不易导出）。这里为你推荐6个常用且好用的工具，分为电脑软件和在线网站两大类，并附上各自的优缺点，方便你选择。一、电脑软件类（推荐，功能强大

音视频 2026年01月23日 125 点赞 0 评论 14498 浏览

C# 基于OpenCv的视觉工作流-章27-图像分割

C# 基于OpenCv的视觉工作流-章27-图像分割本章目标： 一、理论概念； 二、图像处理； 三、设置背景图； 四、设置前景图； 五、计算边缘图； 六、构建标识图； 七、图像分割； 一、理论概念； 详细见文末链接二、图像处理； 对图像进行转灰度图、

音视频 2026年03月05日 35 点赞 0 评论 14438 浏览

人工智能训练师——智能语音识别ASR

人机对话——ASR概念ASR（Automatic Speech Recognition，自动语音识别）是一种将人类语音转换为文本的技术。它使得计算机能够“听”懂人类的语音指令或对话，并将其转换成可读、可编辑的文本形式。ASR技术是人机交互领域中的一个重要分支，广泛应用于各种智能设备和服务中。两大组成部分ASR（Au

音视频 2025年08月06日 196 点赞 0 评论 14393 浏览

计算机视觉-OpenCV项目学习实践学习笔记-04

图像阈值使用函数及相关参数ret,dst = cv2.threshold(src,thresh,maxval,type) ret,thresh1 = cv2.threshold(img_1,127,255,cv2.THRESH_BINARY) ret：表示实际输入的阈值，对应的就是函数里的thresh。例中thresh = 127&#xff

音视频 2025年09月07日 195 点赞 0 评论 14385 浏览

最完整whisperX入门指南：从安装到实现第一个语音识别功能

最完整whisperX入门指南：从安装到实现第一个语音识别功能【免费下载链接】whisperX m-bain/whisperX: 是一个用于实现语音识别和语音合成的 JavaScript 库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的 API，支持多种语音识别和语音合成引擎，并且能够自定义语音识别和语音合成的行为。

音视频 2026年03月05日 48 点赞 0 评论 14382 浏览

音视频

首页

IT互联网

音视频

列表

默认

浏览次数

发布时间