构建大模型的尝试
构建大模型终于开始要清空B站收藏夹关于大模型的视频了收藏 == 看过的不等式要主动划掉
在周二的时候我就看了一会《从零开始用Python搭建LLM模型|Create a LLM from Scratch with Python – Tutorial》
讲的很细致,很多基础的代码都会带你试验一遍。
然后在周三的时候是炉石新版本,我就没有学习,新版本的触萨可以说是很有意思了,养触手到10法术之后就会只出打对面3和打10召10两张卡,非常有实力。但是稳定性挺差劲的,要想上分我觉得还是搞一个污手骑比较好。这个晚上再说,
现在就是继续看从0构建LLM争取让自己对LLM的内部有一定的了解,然后看看关于huggingface开源大模型如何构建应用扩充一下知识面。
todo
[ ]对自己构建地LLM进行训练,然后要做一个应用!!!
[ ]看一下课程ppt(特别是强化学习的!)
小说大模型
小说生成大模型很难受,初步搭建了一个小说生成的大模型框架,想法是用prompt_config来联系每一次迭代时候的大模型,在prompt_config中设置如下内容:
1234567891011prompt_config = { "model_prompt": "Write a continuation of the novel LLM, focusing on the unfolding events and character developments.", "background": "In a dystopian future, where society is divided by technology and natural resources are dwindling,", "characters": { "Alex": "a tech-savvy rebel fighting agains ...
上网的一天
今天本来是要休息的昨天周六,我把周报写了,里面写的周日感冒发烧休息一天反正老师也不知道我是不是真的感冒发烧但是今天下午有个班会,我不想在寝室待到班会开始再出去又回来,所以我干脆就不休息了。
今天的计划就是尝试一下Devin 并且着手开始我的大模型微调
是的我还是用回了原来的算力平台,并且还是4090,虽然很心痛但是要用就要用最好最安全的
在搜索Devin的时候并没有看到能直接使用Devin,而是找到了他们官方发的blog里面有申请使用Devin的调查问卷,我就开始填。问卷里有个linkedin profile我不知道什么意思,我就去问了gpt,它说是个人简历网站,我想想以后可以写一个这个,等别人要我资料的时候我把这个链接甩过去就很帅很酷。
用的google邮箱收Devin的反馈的,记得去看收件箱
我还找到了一个ai广场类似的东西,专门总结一些热门的ai,在这里
开始了我的小说模型的构建今天看了下Fine-tuning和prompt,感觉和我之前想的似乎不太一样。我就从prompt方式入手,我打算构建一个prompt_config,里面存储故事背景、人物及其性格、然后是历史故事以 ...
环球影城一日游
环球影城3-14号去了环球影城玩,一天走了将近3W步。
在环球影城玩让我有了触碰现实的感觉,将我从虚拟的深渊往上提了一提,每天都面对着电脑,让我对于现实时间的感知免得愚钝
从地铁口出来之后就是安检,安检进去就是一个大的广场,广场主要是卖一些吃的和周边,感觉估计一顿饭得人均100多在这里。然后过一个桥就到了环球影城的大酒店,进去是一个商品街,这个商品街晚上开灯之后特别有感觉,特别是沿着街走到湖边的的左手边有个饭店,饭店门口停了几辆车,特别有美剧的感觉。
那天我游玩的顺序是先陪同学去坐霸天虎过山车
这次我没有坐,有点害怕的
然后坐了大黄蜂转圈圈,就是一个旋转的杯子在旋转的地台上,这个旋转的杯子似乎可以人手动控制旋转速度,但因为我们跟一对出来玩的老爷爷老太太坐在一个杯子里,就没有做一些很坏的事
随后去了火种争夺战,让你坐一个车子里,然后沉浸抢夺火种,不是很吓人也不是特别有意思,算是饭前甜点吧。
变形金刚出来之后去的是功夫熊猫,这块地方完全就是为小朋友准备的,玩的旋转木马啊飞天灯笼啊,玩着很舒服也很惬意,但是玩一会就没了,里面有个娱乐设施专供小朋友玩,我也想玩。
然后就去了小黄人的室内 ...
B站OpenBMB视频
huggingface今天也是用了下huggingface,不过也遇到了很多问题。一开始直接将模型页面的试用代码放上来运行了,虽然下载了很多包,但是运行碰到了没有权限access这个model然后就是搜了很多很多的方法,试了几个比如代码中添加token什么的都没解决问题。
然后去看了文档,首先就是要运行下面的
12python -m pip install huggingface_hubhuggingface-cli login
这个会让你填入api_token,这个在个人信息那里创建一个复制过来就行,不过复制到里面会显示不见,而且最好不要用Ctrl-V的方法,它提示右键复制会好一点
然后就是下载模型,等等就行7b的我16G内存运行不了,只能运行2b的,后续考虑用别的方法调用模型会好一点?🙄
在7b量化的运行中也出现了问题现在还没解决,好烦🙄
怪事,在huggingface上面运行的模型回复长度好长,本地运行的就回复几个词的然后就是下载的huggingface的模型会在本地存储,存储位置在
1C:\Users\78752\.cache\huggingface\hub
记得删掉
...