一、chatgpt原理

1、chatgpt是不联网的,因此他并不是网络搜寻来的答案,而是基于以往的数据集做文字接龙,预测下一个输出字符的可能
2、督导式学习:以大量的例子为鉴,机器自己找函式。如学习大量的中英文成对例句,学习中英互译。
3、自督导模型:用一些方法无痛生成数据,像gpt这类也叫作基石模型
4、增强式学习:自督导学习是老师找数据,要给答案。而增强式学习只需要老师点赞告诉正确与否即可。在chatgpt中,如果问正常的问题,回答的很好,因为这都是老师纠正过的。而如果问一些莫名其妙的问题,则任然是文字接龙

二、chatgpt带来的研究问题

1、gpt会泄露隐私,虽然经过了调教,但是只要绕着弯问,就会告诉你一个答案,虽然这个答案可能是错的
2、machine unlearning:机器遗忘,让机器在网上找到相关的隐私资料,但是把他遗忘,以免引起安全问题。如果单纯的调教,比如问最近一个的世界杯冠军是谁,告诉他是阿根廷,那么其他相关的问题可能也会修改掉,比如具体问2014年冠军是谁
3、精准提出需求

补充

chatgpt和midjourney(文字生成图片)可以生成文字探险游戏

三、chatgpt学习的四个阶段

1、学习文字接龙

文字接龙后的字是概率出现的,所以每次结果都是不同的

2、人类老师引导文字接龙方向

找人来思考想问gpt的问题,并人工提供正确答案。

3、模拟人类老师的喜好

openai会有很多接口给很多人使用,这样就会产生很多人类问模型的问题,随后让gpt产生这个问题的答案,openai再雇佣人类来评价这个答案是否是好的。接下来再训练一个teacher model来模仿人类老师评价

4、用增强式学习向模拟老师学习

调整参数,得到teacher model给的最大reward

四、能够使用工具的AI

chatgpt和new bing的区别是,chatgpt的答案是不联网的,是基于以往数据训练出来的,而new bing则是联网,询问的问题在new bing中会拆成不同的关键字,在互联网上搜寻答案,并且搜寻的答案在回答中会给出引用,但这并不代表new bing获得的答案是正确的。此外,new bing也可以不联网,是否需要联网,则由new bing自己来决定。
搜寻的答案其实也是文字接龙。这里举一个与new bing类似的gpt,webgpt。假设我需要知道尼罗河和扬子江哪一个更长,webgpt会通过拆分关键字,在网上搜寻答案,并且将想得到的内容进行收藏,通过比对后得到想要的数据再一起写答案,这个过程同样是人类老师调教而成的,webgpt通过记录人类老师的行为,产生自己的模型。