数学

【DeepSeek系列】逐行讲解MLA朴素+吸收矩阵代码全新实现

引言注意力机制作为大语言模型的核心组件,这么多年从最开始的 MHA 到现在最常用的 MQA、GQA,最主要的目的都是为了节省kv cache的大小。MHA每一层需要存储【序列长度注意力头数每头维度】的大小,而MQA让每个头的k共享,需要存储的维度直接降低为【序列长度1每头维度】,但后面发现这样降的太多就导致性能下降&#xff0

记参加一次数学建模

题目请到全国大学生数学建模竞赛下载查看。 注:过程更新了很多文件,所有这里贴上的有些内容不是最新的(而是草稿)。 注:我们队伍并没有获奖,文章内容仅供一乐。从这次比赛,给出以下赛前建议 准备代码,今年比赛的时候使用DeepSeek的人数一定不少,到时候画图、数据处理等的代码

我的算法修炼之路--7—— 手撕多重背包、贪心+差分,DFS,从数学建模到路径DP

💗博主介绍:计算机专业的一枚大学生 来自重庆 @燃于AC之乐✌专注于C++技术栈,算法,竞赛领域,技术学习和项目实战✌💗 💗根据博主的学习进度更新(可能不及时) 💗后续更新主要内容:C语言,数

c++ 图论-强连通分量 小总结

之前学习了一些强连通分量的知识点,在此做一个小总结。强连通分量是指是一个极大的子图,图中点两两联通。可以通过强连通分量将一个图转换为有向无环图,进行解决部分问题。题目B3609 [图论与代数结构 701] 强连通分量 - 洛谷给定一张 n 个点 m 条边的有向图,求出其所有的强连通分量。求法Tarjan算法这是比较常用,适用范围

【day12】从零开始学数学建模-国赛2023C题228-问题二+问题三-LSTM模型向后预测

前言国赛2023C题问题二要求:考虑商超以品类为单位做补货计划,请分析各蔬菜品类的销售总量与成本加成定价的关系,并给出各蔬菜品类未来一周(2023年7月1-7日)的日补货总量和定价策略, 使得商超收益最大。思路:首先利用双对数需求模型探究销售总量与成本加成定价的关系,然后通过LSTM模型对未来7天各品类的成本与销量

AI体育教学路线动态规划与3D可视化系统

快速体验 打开 InsCode(快马)平台 输入框内输入如下内容: 我需要开发一个AI体育教学路线动态规划与3D可视化系统,帮助体育教师根据学生体能水平和教学场地条件,自动生成最优教学路线。 系统交互细节: 1. 输入阶段:教师输入学生年龄、体能测试数据、可用场地尺寸和障碍物位

Dijkstra算法求解最短路径—— 从零开始的图论讲解(2)

目录前言什么是最短路径问题什么是Dijkstra 算法Dijkstra 算法的特点:Dijkstra 算法的核心思想 :初始状态:第一轮:距离源点最近的点且i] = false 的节点 : 1第二轮: 距离源点最近的点且i] = false 的节点 : 2第三轮: 距离源点最近的点且i] = false 的节点 : 3第四轮:选出未访问且距离最小

【C++动态规划】1105. 填充书架|2104

本文涉及知识点下载及打开打包代码的方法兼述单元测试 C++动态规划 LeetCode1105. 填充书架给定一个数组 books ,其中 books[i] = [thicknessi, heighti] 表示第 i 本书的厚度和高度。你也会得到一个整数 shelfWidth 。 按顺序 将这些书摆放到总宽度为 shelfWidth 的书架上。 先选几本书放在

2026年五一杯数学建模B题:多工序协同作业问题

2026年五一杯数学建模B题:多工序协同作业问题 开篇摘要:这次复盘围绕 2026 五一数学建模 B 题“多工序协同作业问题”展开。项目没有停留在手算或单脚本层面,而是把题目拆成数据解析、工序展开、设备分配、事件驱动解码、启发式搜索、结果校验和可视化输出几个模块。本文所有数值、图表和代码片段均来自当前项目目录中的真实文件,重点记录从单车

从原始序列到系统发育矩阵:R语言全流程数据转换指南

第一章:从原始序列到系统发育矩阵:R语言全流程数据转换指南在系统发育分析中,将原始生物序列转化为可用于建模的系统发育矩阵是关键的第一步。这一过程涉及序列比对、质量过滤、格式转换与特征提取等多个环节。R语言凭借其强大的生物信息学支持包(如`ape`、`phangorn`和`seqinr`&#xff