动手学习强化学习
DQN深度强化学习,基础就是使用一个全连接网络来预测Q(s, a)动作价值函数,这个动作价值函数指的是在一个状态下采取一个动作的价值。直接看定义吧
123456789101112class QNet(nn.Module): def __init__(self, state_dim, hidden_dim, action_dim, *args, **kwargs): super().__init__(*args, **kwargs) self.net = nn.Sequential( nn.Linear(state_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, action_dim), nn.ReLU() ) def forward(self, x): return self.net(x)
然后在训练过程中,由于没有样本,需要将agent与环境交互获得的状态动作回报下一状态是否完 ...
page
好久不见了这几天干了什么也没写,就记得个上周帮老师调研了什么,周五开会又布置了什么任务整个周末都在写智能计算系统的实验,本来还想记录的但其实我所有的内容都是靠GPT写出来的,完全不用改就能运行通过
之前找的答案是4年前的,北大学生上传的他们那会还没有GPT,感觉自己跟他们的差距真的相当的大。
今天周一刚把老师分配的任务给做完,下午2点,打算这篇写完就休息一会(崩铁),然后就能学自己喜欢的强化学习咯。
未来要做的事深度学习的实验做完了,在提交之间可以做一个完善
深度学习的实验我自制了一个分块卷积网络(依然是靠着GPT),正确率不到90,就这样吧有机会再改改智能计算系统实验也是全部满分了,可以的话找个时间git上去好了这一周估计就是强化学习把那个五子棋环境跑通了,然后还要实现两种方法的AI下五子棋。
pycharm是真的不好用,风扇呼呼响的
关于强化学习gym环境的训练可视化要用类似如下代码
123456789101112131415161718env_name = 'CartPole-v0'env = gym.make(env_name, render_mod ...
动手学习强化学习
首先介绍一下今天学习的强化学习内容中会用到的环境,悬崖边上走就是一个R*C的二维数组,最后一行第一列和最后一列分别是起点和终点agent每走一步都会有-1的reward,如果走到悬崖边上就会-100的reward
12345678910111213141516171819202122232425262728293031class CliffWalk: """这一环境的悬崖固定在最后一行,其中最后一行第一列是起始位置,最后一列是终止位置,其它位置都是悬崖""" def __init__(self, n_rows, n_cols): self.n_rows = n_rows self.n_cols = n_cols self.n_state = self.n_rows * self.n_cols # P[state][action] = [(P, next_state, reward, done)] self.P = self.init_P() ...
强化学习的第一天
动手学习强化学习强化学习这门课程要求写一个AI进行五子棋,我找了个Alpha zero的算法但我其实并不太明白的
所以说我又找了一下深度强化学习的资料,看到一篇知乎里的评论给了很多很多的学习资料
然后我就选择其中一本动手学习深度学习这本书,感觉是和dive into deep learning是差不多的类型
等我花一周时间拿下这本书
多臂老虎机多臂老虎机是相当简化的强化学习问题(但我觉得其实也可以非常复杂),里面只有动作和价值。问题主题就是有K个老虎机,你摆动其中的摇杆,然后获得奖励,问题核心在于如何动作获得最大的价值,在一定时间步内的动作要想获取最大价值,就需要每次动作都要在最能(概率最大的)获得更多奖励的老虎机上扳动摇杆然后我们先初始化一下老虎机
12345678910111213class BernoulliBandit: def __init__(self, k) -> None: self.K = k """初始化K个老虎机,每个老虎机的获奖概率不同""" sel ...
大模型决策
李学龙调研找了他最近发的很多论文,但是找到可能和大模型决策有关的好像还挺少的这个老师好像主要是视觉、特征学习、量子计算、图神经网络还有一些遥感方向的东西,而且有很多无监督学习
他还有一个无人机的自主“聊天群”提出“群聊式”对话交互方法,将声音、图像和无人机自身状态等多种信息,通过大模型转换为自然语言的对话形式,实现了用户与无人机,以及无人机与无人机之间自主和直观的交互方式。
可能这个多种智能体协调的跟这个是一个意思?用大模型进行文本交流.有一个文章链接是关于李学龙教授的临地安防的,里面可能有更细致的内容但是看这个要会员。
有个关于这个新闻的评论异构智能体自主协作,大模型扮演了什么角色?这个里面有对李学龙教授的采访,其中的重点我认为依然是大模型本身的问题可能会带到下游任务中,比如一些伦理道德隐私之类的。
关于近期能找到相关的论文,首先就是这个重磅的CCFA的论文,讲的无人机Optics-driven drone
本文讨论了一种新型的光学驱动无人机(ODD)系统,该系统基于人工智能和激光无线电力传输技术,旨在解决当前无人机由于化学电池能量密度限制而面临的续航能力短,任务覆盖范围和信息感知 ...