强化学习的第一天
动手学习强化学习强化学习这门课程要求写一个AI进行五子棋,我找了个Alpha zero的算法但我其实并不太明白的
所以说我又找了一下深度强化学习的资料,看到一篇知乎里的评论给了很多很多的学习资料
然后我就选择其中一本动手学习深度学习这本书,感觉是和dive into deep learning是差不多的类型
等我花一周时间拿下这本书
多臂老虎机多臂老虎机是相当简化的强化学习问题(但我觉得其实也可以非常复杂),里面只有动作和价值。问题主题就是有K个老虎机,你摆动其中的摇杆,然后获得奖励,问题核心在于如何动作获得最大的价值,在一定时间步内的动作要想获取最大价值,就需要每次动作都要在最能(概率最大的)获得更多奖励的老虎机上扳动摇杆然后我们先初始化一下老虎机
12345678910111213class BernoulliBandit: def __init__(self, k) -> None: self.K = k """初始化K个老虎机,每个老虎机的获奖概率不同""" sel ...
大模型决策
李学龙调研找了他最近发的很多论文,但是找到可能和大模型决策有关的好像还挺少的这个老师好像主要是视觉、特征学习、量子计算、图神经网络还有一些遥感方向的东西,而且有很多无监督学习
他还有一个无人机的自主“聊天群”提出“群聊式”对话交互方法,将声音、图像和无人机自身状态等多种信息,通过大模型转换为自然语言的对话形式,实现了用户与无人机,以及无人机与无人机之间自主和直观的交互方式。
可能这个多种智能体协调的跟这个是一个意思?用大模型进行文本交流.有一个文章链接是关于李学龙教授的临地安防的,里面可能有更细致的内容但是看这个要会员。
有个关于这个新闻的评论异构智能体自主协作,大模型扮演了什么角色?这个里面有对李学龙教授的采访,其中的重点我认为依然是大模型本身的问题可能会带到下游任务中,比如一些伦理道德隐私之类的。
关于近期能找到相关的论文,首先就是这个重磅的CCFA的论文,讲的无人机Optics-driven drone
本文讨论了一种新型的光学驱动无人机(ODD)系统,该系统基于人工智能和激光无线电力传输技术,旨在解决当前无人机由于化学电池能量密度限制而面临的续航能力短,任务覆盖范围和信息感知 ...
智能计算实验二
周三上午在写多智能体作业先睡午觉晚上再说,等会上课调研一下那个李学龙的东西
周四上午在写风格迁移作业,打算周末的时候好好看下代码,最好是能够自己实现一遍今天下午就可以调研一下大模型决策这种东西。
卷积层的实现这是卷积层的前向传播的原始实现,使用了4层循环,时间复杂度相当高
123456789101112131415161718192021222324252627def forward_raw(self, input): start_time = time.time() self.input = input # [N, C, H, W] """padding img and let the center be img""" height = self.input.shape[2] + self.padding * 2 width = self.input.shape[3] + self.padding * 2 self.input_pad = np.zeros([self.input.shap ...
Reason for Future, Act for Now - A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency
背景LLM具有很强的推理能力,但是在现实世界中,将推理转变为行动依然存在着一定的问题。LLM从预训练中获得了大量的先验知识,但在现实世界中它本质上依然是无状态无根据,因此采取的决策往往不是最优的。为了解决这一问题,就使用外部反馈来迭代优化行动。
似乎是会引入强化学习方面的知识,最近强化学习的课也在学马尔可夫决策,最优策略、最优价值什么的。看了导言说是用prompt模板作为驱动,依据外部反馈的历史信息更新prompt,再由prompt驱动决策产生和优化,感觉像这个形式,如果是这样的话其实我写的小说创作大模型的生成过程和这一框架非常地接近
他们特别考虑了样本效率这一因素,也就是他们的目标是让智能体在与环境少交互的情况下依然能完成给定任务。
强化学习确实在引言部分被提到了,说强化学习技术与大模型由于种种原因存在一定差异
强化学习技术在数字系统中,而大模型则是语法系统大模型由通用语料库训练,强化学习则在反馈与迭代中学习
看了一下框架图,这个框架主要由2个部分组成,一个外部memory buffer,一个agent, agent内部又包含有学习以及推理两个部分,学习是通过外部记忆缓存输入 ...
从0构建GPT
bigram language model二元语言模型,仅仅关注上一个单词来预测下一个单词出现的概率。不想写了感觉这个很原始
small GPT这个代码从0开始构建简化GPT架构,GPT是decoder only的架构,只需要串序叠加decoder块即可。看的视频是从总体框架进行的构建,再逐步细化,我觉得可以稍微学习他的编码方式
首先就是GPTModel,
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960class GPTLanguageModel(nn.Module): def __init__(self, vocab_size, block_size, n_embed, n_layer, n_head) -> None: super().__init__() self.vocab_size = vocab_size self.block_size = blo ...