A Survey on Large Language Model based Autonomous Agents
强化学习的一些事强化学习MD作业deadline提前了整整一个月了,这一周就光做作业去了什么也没干刚出一个llama3想玩玩也没时间,现在又要看论文了,打算下午去吃点好的犒劳下自己了。
关于强化学习写作业的感受,太难了,环境怎么设计奖励怎么回馈实在是太难了,不靠GPT基本很难完成了可以说是。一些有意思的是价值迭代和DQN在完成的一个版本都下不过随机落子,但是在价值迭代改进了之后能够完胜随机落子,同时下不过随机落子的DQN完全没有改动竟然随便赢改进之后的价值迭代,可以说是傻逼克高手了。
因为价值迭代一直没有进度,(成功的那版是用GPT仿照悬崖环境的价值迭代写的),我中间也尝试过用策略迭代代替价值迭代,结果这个策略迭代更离谱了,会在已经有棋子的地方下棋。
论文的一些事问题背景先前agent的决策过程与人类不是很像,agent知识来源狭隘且以简单的启发式的决策进行行动,同时环境也是为agent进行设计过的、受限的。在大模型出来之后,智能体能做出类人决策变得很有可能了。
An autonomous agent is a system situated within and a part of ...
也许是一个很牛逼的想法
关于昨天的交流讨论我是完全不知道交流讨论是把老师给的文献看了然后再给他讲出来我问同学说交流讨论是干嘛的他们说是讲最近干了什么我就真把最近干了什么写成一个PPT了结果是讨论分享看过的论文我无语,整个给我糗大了
动手学习强化学习
DQN深度强化学习,基础就是使用一个全连接网络来预测Q(s, a)动作价值函数,这个动作价值函数指的是在一个状态下采取一个动作的价值。直接看定义吧
123456789101112class QNet(nn.Module): def __init__(self, state_dim, hidden_dim, action_dim, *args, **kwargs): super().__init__(*args, **kwargs) self.net = nn.Sequential( nn.Linear(state_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, action_dim), nn.ReLU() ) def forward(self, x): return self.net(x)
然后在训练过程中,由于没有样本,需要将agent与环境交互获得的状态动作回报下一状态是否完 ...
page
好久不见了这几天干了什么也没写,就记得个上周帮老师调研了什么,周五开会又布置了什么任务整个周末都在写智能计算系统的实验,本来还想记录的但其实我所有的内容都是靠GPT写出来的,完全不用改就能运行通过
之前找的答案是4年前的,北大学生上传的他们那会还没有GPT,感觉自己跟他们的差距真的相当的大。
今天周一刚把老师分配的任务给做完,下午2点,打算这篇写完就休息一会(崩铁),然后就能学自己喜欢的强化学习咯。
未来要做的事深度学习的实验做完了,在提交之间可以做一个完善
深度学习的实验我自制了一个分块卷积网络(依然是靠着GPT),正确率不到90,就这样吧有机会再改改智能计算系统实验也是全部满分了,可以的话找个时间git上去好了这一周估计就是强化学习把那个五子棋环境跑通了,然后还要实现两种方法的AI下五子棋。
pycharm是真的不好用,风扇呼呼响的
关于强化学习gym环境的训练可视化要用类似如下代码
123456789101112131415161718env_name = 'CartPole-v0'env = gym.make(env_name, render_mod ...
动手学习强化学习
首先介绍一下今天学习的强化学习内容中会用到的环境,悬崖边上走就是一个R*C的二维数组,最后一行第一列和最后一列分别是起点和终点agent每走一步都会有-1的reward,如果走到悬崖边上就会-100的reward
12345678910111213141516171819202122232425262728293031class CliffWalk: """这一环境的悬崖固定在最后一行,其中最后一行第一列是起始位置,最后一列是终止位置,其它位置都是悬崖""" def __init__(self, n_rows, n_cols): self.n_rows = n_rows self.n_cols = n_cols self.n_state = self.n_rows * self.n_cols # P[state][action] = [(P, next_state, reward, done)] self.P = self.init_P() ...