大家好,我是「写点啥」app 的开发者南壹,今天给大家分享一下,我是如何用 ChatGPT 打造出一套简易的推荐系统的。

 

背景

「写点啥」的用户可以在 app 中随机获取到一个题目,来帮助自己找寻一些写作灵感。最初当用户打开 app 后,会从数据库中所有的题目中,完全随机的获取到一条题目。

底部显示的题目

我当时设计成这样的目的是希望用户能最大可能的接触各种类型的题目,从不同类型的题目中找创作灵感,但是经过一段时间后,有用户反馈对有些题目产生了不适,例如「一只乌鸦向你飞来,嘴里衔着一根断指,指头上文着你的名字……」,一开始我还跟用户解释题目获取是完全随机,以及我为什么要这么设计,结合当时自己玩「艾尔登法环」的经历,表示这个题目中的指头其实可以有很多想象力等等。

被用户吐槽题目产生了不适

但是在几次的用户反馈后,我意识到我没法说服每一个人,作为开发者,应该考虑用户的诉求,为用户提供一个更舒适的 app 使用体验,那么一个推荐系统就迫在眉睫。

开发准备

作为一个 iOS 开发者,画界面,写交互这些工作可以,但是涉及到推荐系统,在一开始则有些无从下手,最早我找到一个做后端的朋友,咨询如何去搭建一套推荐系统,他跟我说的方法比较笼统,并没有具体的实现方式,后来也就搁置了。

最近 ChatGPT 大火,听说很多人已经用它来提升生产力,但我平时只是调戏一下它,让它回答一些我觉得好玩的问题,可是,又一次的用户反馈一些题目并不喜欢之后,我尝试用 ChatGPT 来帮我去打造这套推荐系统。

当一个用户不喜欢当前的题目时,可以点「换一个」按钮,这个题目就会被加入不喜欢列表,再从服务器请求一个新题目时,会连带已写过的题目列表一起,上传到服务器,进行一个去重的操作,这个不喜欢列表,最多包含 20 条题目,当超过 20 条,就会删除掉最早的一条不喜欢题目。

在最早的题目数据库搭建时,每一个题目都有一个叫「sort」用来排序的整数字段,默认设置为 999,本想着对这个字段进行加减,让一些我认为好的题目设置为更高的优先级,后来发现如果这么更改,用户可能总是会获取到这个题目,所以这个字段一直没有被使用过。

后来在一个大版本中,「写点啥」提供了一个自由写作的功能,用户们可以自定义题目进行写作,并且可以把题目分享给我们的后台,通过审核后,其他用户便可以获取到这个题目,并且显示「from xxx」,同时我们会开始记录每一个题目被用户们写过的次数,将写作次数存入一个叫「written_count」的数据库字段中,每次有用户写了这个题目,这个字段就会+1,我计划后期把这个数据展示在每一个题目中,让分享题目的用户能看到其他人也在写他分享的题目,获得一种满足感。

因为「写点啥」没有账号系统,所以无法做到千人千面的推荐,只能通过上面的这些条件进行推荐,于是推荐系统就基于这两个数据开始展开。

与 ChatGPT 聊聊需求

我和 ChatGPT 聊的第一个问题是「一个题目列表,根据用户的点赞数量和一个数字「sort」字段,用Python设计一个权重系统,让用户可以从全部题目列表中获取一条题目」,ChatGPT 很快给了我一个根据点赞数和排序字段对题目列表进行加权排序,并从排名最高的题目中随机选择一个题目返回的 Python 代码,其中权重的计算公式是:权重=已写次数*排序值。

第一个问题

我在阅读完代码后,认为如果用户按照当前的权重规则去获取题目的话,那么那些还没有被用户写过的题目,就永远无法被用户获取到,于是我增加了一个条件「上面的问题要确保即使没有用户喜欢过的题目也有机会被用户获取到」,于是 ChatGPT 在之前的代码基础上做了优化,提供了一个基础权重值,于是权重的计算公式变为:权重=已写次数*排序值+基础权重。

这一次的修改不是很有意义,于是我找到了我那位朋友,把和 ChatGPT 的沟通结果告诉了他,询问这种实现是否有问题,并且对后添加的题目无法保证能否被获取到表示了担忧,朋友告诉我需要增加新的维度,例如题目的添加时间,于是我带着这个思路又找到了 ChatGPT。

但在我进行输入到「这样点赞数和 sort」时不小心按了回车,后面的话没来得及打出来,内容就发送出去了,最让我意想不到的事情发生了,ChatGPT 回复我「字段的权重都非常高,是否可以引入一些其他因素,比如时间因素,以确保更好的随机性?当然可以。可以将题目的发布时间作为一个因素,并将其纳入权重计算中。以下是一个修改后的示例代码:」,我当时有些震惊,明明我的问题没有提完,它就已经知道了问题所在,并且给出了和我朋友一样的思路,将权重的计算方式变成了:权重=已写次数排序值+基础权重+创建时间时间权重(0.001)。

因为不小心按了回车,却得到意想不到的回答。

接下来我想不能让那些权重排名最低的题目永远无法让用户获取到,希望给它们一个逆袭的机会,于是我对 ChatGPT 说「如何给大家不喜欢,写的数量少,添加时间久的题目能有小概率的展示机会,而不是永远无法被获取到?」,这一次 ChatGPT 引入了一个表示随机概率的小数和代码,但是可能因为网络原因,代码并没有显示完全,这一次对话就结束了,并没有给出完整的实现方法。

此时我觉得已经差不多了,我对 ChatGPT 说「能把这个场景,写一个推荐算法吗?」,ChatGPT 很贴心的把上面一系列的对话进行了总结「当用户需要从一个题目列表中获取一条题目时,我们可以通过推荐算法来选择一个最适合用户的题目。以下是一个简单的推荐算法,它基于题目的点赞数量、「sort」字段、发布时间以及用户历史上选择的题目,为用户推荐一道合适的题目:」,并给出了一个算法的实现代码,代码更加整洁,输入输出更加合理。

作为一个《7 天学会 Python》的 iOS 开发者,对一些 Python 代码不是很熟悉,于是我把代码中一些我不懂的内容一一对 ChatGPT 进行了追问,它就像一个老师一样,对每一行代码的作用对我进行了详细的讲解。

因为我的后台是使用 Python 知名的开源内容管理后台 Django 来搭建的,所以我让 ChatGPT 对以上算法结合 Django 该如何使用,给出了解答,期间大约用了 1 个多小时,来和 ChatGPT 沟通实现的细节,省了我大量查阅官方文档的时间。

最后代码基本成型后,我又想引入一个惩罚机制,当用户点击「换一个」时,我认为用户是不喜欢这个题目的,于是在题目中增加了一个 change_count 字段,用以记录这个行为,每次用户点击「换一个」,这个题目的 change_count 字段就会+1,我把这个新引入的字段告诉了 ChatGPT,告诉它这个字段表示用户不喜欢这个题目,希望它融入到推荐算法实现中,ChatGPT 也很好的领悟到了我的意思,表示这个字段可以作为对题目降权的一种手段,并且给出了算法的优化代码。

这期间,我和 ChatGPT 沟通了 2,3 个小时,我不断地询问细节,抛出疑问,ChatGPT 不断地耐心解答并尝试优化算法解决我的疑问,最终算法优化的差不多,我决定开始动手把算法集成到系统里。

结果

集成算法很快,几乎没花费我多少时间,之后我便开始对算法进行一系列的测试,结果发现给到的确实是排名相对靠前的 20 多个题目,并且同一个题目在 20 次点击「换一个」按钮时不会重复获取,但超过了 20 次后,就有极大的概率会再次被获取,针对这个问题,我让 ChatGPT 引入一个可自定义随机范围的变量,经过几次尝试,终于达到了让我相对满意的结果。

用户获取的题目,是通过已写数量(越多权重越大)、排序数值(越大权重越大)、创建时间(越接近当前时间权重越大)、「换一个」次数(越小权重越大),以及一个可变的随机范围,这样每一个用户进行每一次写作或者点击「换一个」按钮时,都会给这个题目进行一次打分,后台也可以通过修改排序数值,让一些更有价值的题目在一段时间内,更多的被用户获取到。

通过这一次的沟通,我深切的体会到 ChatGPT 对生产力的提升,让一件无从下手的事情变成一件具体可执行的事情,对问题的理解有时超过人类,对问题的解答做到了详尽,在一次会话中,能一直贯穿上下文的内容。

当然也有不足之处,例如我和它沟通了几轮细节后,我想回到某一次的实现中,让它把这几轮的实现融入到某一次的代码时,没有引用对话机制,就不太方便。但总体而言,ChatGPT 为我打开了一扇新的大门,如果大家像我一样对一些不熟悉的领域不知该如何开始时,不如也与 ChatGPT 聊一聊你的需求和想法,也许问题就能得到解决。