人工智能

从零开始强化学习(四)——策略梯度

四. 策略梯度(Policy Gradient) 4.1 期望奖励(Expected Reward) 在强化学习中有3个组成部分:演员(actor),环境(environment)和奖励函数(reward function) 演员就是一个网络,输入状态,输出动作 环境就是一个函数,输入状态和动作,输出状态。环境是基于规则的规则,是确定不变的 奖励是在某一个状态下采取某个动作能够获得的分数。环境是

深入剖析 AI 大模型的反向传播原理

深入剖析 AI 大模型的反向传播原理:从理论到源码实现 本人掘金号,欢迎点击关注:掘金号地址 本人公众号,欢迎点击关注:公众号地址 一、引言在当今人工智能领域,大型语言模型如 GPT - 3、BERT 等取得了令人瞩目的成果。这些模型在自然语言处理、图像识别等众多任务中展现出强大的能力。而在训练这些大模型的过

优化算法matlab实现(八)人工蜂群算法matlab实现

注意:此代码实现的是求目标函数最大值,求最小值可将适应度函数乘以-1(框架代码已实现)。 注意:此代码实现的是求目标函数最大值,求最小值可将适应度函数乘以-1(框架代码已实现)。 注意:此代码实现的是求目标函数最大值,求最小值可将适应度函数乘以-1(框架代码已实现)。 1.代码实现 不了解人工蜂群算法可以先看看优化算法笔记(八)人工蜂群算法 实现代码前需要先完成优化算法matlab实现(二)框架编

【R实战 高级方法】十四、主成分和因子分析

这里是佳奥!R实战部分的学习进入后期,我们继续高级方法的学习。 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。 探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。 首先,我们将回顾R中可用来做PCA或EFA的函数,并简略看一看相关分析流程。

大师兄的数据分析学习笔记(二十五):聚类(一)

大师兄的数据分析学习笔记(二十四):回归树与提升树 大师兄的数据分析学习笔记(二十六):聚类(二) 一、监督学习和无监督学习 分类和回归都属于监督学习,监督学习的特点是有标注。 所谓标注也就是数据的特征,不管是分类还是回归都是通过标注进行区分数据。 而无监督学习没有标注,所以无监督学习的目的就是给数据加上标注。 进行标注的原则是,加过标注后的数据应该尽可能相似,而不同标注内的数据应该尽可能不同

自编码器 AE(AutoEncoder)程序

原文链接 1.程序讲解 (1)香草编码器 在这种自编码器的最简单结构中,只有三个网络层,即只有一个隐藏层的神经网络。它的输入和输出是相同的,可通过使用Adam优化器和均方误差损失函数,来学习如何重构输入。 在这里,如果隐含层维数(64)小于输入维数(784),则称这个编码器是有损的。通过这个约束,来迫使神经网络来学习数据的压缩表征。 input_size = 784 hidden_size = 6