OpenAI的内乱来自一封信，信里谈到人类的威胁Q，而Q的背后是这两种算法

文章来源：企鹅号 - 十点洞见

路透社报道，Sam Altman被OpenAI解雇，原因是一封由OpenAI内部研究人员发送给董事会的信件。信中警告称，他们发现了一种可能对人类构成威胁的重大人工智能技术，被称为Q*（发音为Q-Star）。

一些OpenAI的人认为Q可能是通向超级智能或人工通用智能（AGI）的重大突破。研究人员认为它可能对人类构成威胁，这封信和该Q是导致Altman被解雇的关键因素。

而OpenAI 的新技术 Q*（Q-star）的背后是两个关键算法：Q Learning（一种强化学习算法）和 A Star（一种搜索算法）。

Q Learning（强化学习算法）和A Star（搜索算法）是两种不同的机器学习算法。

下面我会用简单的例子来解释这两种算法。

Q Learning（强化学习算法）：

想象你是一个小机器人，刚刚被发明出来，你对世界一无所知。你需要在房间里找到出口，走出房间。但是房间里有许多障碍物，你需要尝试各种方法才能找到出口。这个过程就是强化学习。

在强化学习中，你（机器人）通过尝试各种行为（比如向左走、向右走、跳跃等），来获得奖励（比如靠近出口、远离障碍物等）。你根据获得的奖励，来调整你的行为，以便下次能更好地找到出口。这个过程重复多次，直到你找到出口。

A Star（搜索算法）：

现在，假设你是一个小男孩，要在一个大城市里找到你的朋友。你不知道你的朋友在哪里，但是你知道城市里的道路和建筑物。你需要找到最快的方法找到你的朋友。

在A Star搜索算法中，你从你的家出发，一步一步地探索城市。每次你都可以选择继续向前走，或者回到之前的点。你根据你当前的位置和目标位置，来选择下一步的行动。你不断地重复这个过程，直到找到你的朋友。

总? 结：

Q Learning（强化学习算法）就像是一个机器人，通过不断地尝试和获得奖励来学习如何做出最好的决策。而A Star（搜索算法）就像是一个人，根据当前的位置和目标，来选择下一步的行动，以便尽快达到目标。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货