如何用人工智能帮你高效寻找研究选题？

Matrix 首页推荐

Matrix 是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章，展示来自用户的最真实的体验和观点。
文章代表作者个人观点，少数派仅对标题和排版略作修改。

保持探索精神，学用合适的工具，高效解决问题吧。

痛苦

对你来说，读文献，特别是读自己感兴趣的文献，可能是件非常令人愉悦而激动的事儿。例如海华，他读博的时候我到 UNT 访学，跟他在一个实验室。他时常一边读最新的顶会论文，一边击节赞叹。读到开心之处，他会高声喊出来，还兴奋地把我拉过去一起看。我觉得他是把信息检索读出了《冰与火之歌》的意境。

但是论及阅读海量文献，试图从中找寻自己的研究选题，可能就没有那么轻松愉悦了。原因大家都清楚 —— 论文太多了，而且产生速度极快。即便是水平顶尖的学者，也不敢夸下海口，说自己读过领域内全部重要文献。因为就在你说话这几分钟里，可能又有（不止一篇）新的论文发表了，里面兴许就包括重要的新观点和新发现。这于是就构成了个显著的矛盾：

余生也有涯，而论文无涯。以有涯逐无涯，game over .

可是，不充分全面了解领域的发展，你又怎么寻找和验证自己的选题呢？你兴冲冲地给别人展示自己的新发明，一种有效降低界面摩擦提升运输效率的装置。然后别人一脸狐疑：

这玩意儿，不是叫做轮子吗？

对于科研新手来说，通过研读论文来找寻选题，还担负着必要科研训练的目的。新手在选择「读哪些论文」这个问题上，没有经验，整体过程可能要经历更多挫折和弯路。有的学生不愿意自己耗费无用功，会干脆把这个问题推给导师。

老师老师，您给我布置一个论文阅读列表吧。

如果导师对你的研究方向熟悉，这事儿还好说。可如果不巧你的研究方向是导师尝试进入的新领域，那么这件事儿上他能提供的帮助很有限。这么多的新论文，他也没有都读过来，又怎么去分辨其中哪些论文更有价值呢？最终，还是得你自己去一片迷雾中不断探索。这中间，你可能会遗漏很多重要成果，甚至干脆走错了方向。

好在，你可以充分利用工具。古人航海可以用指南针，今天你开车有导航。同样，在科研的世界里漫游，你也可以借助一些更为有效的工具，减少大量的无用功耗费。

工具

我给你推荐的这款人工智能科研辅助工具，叫做 Elicit ，链接在这里。2021 年 10 月 20 日，我刚发现了它时，就给你做了一则视频。

我在视频里，归纳了当时 Elicit 提供了几类主要功能，包括：

文献推荐。给定选题后，推荐文献的同时，还给出论断（claim）；
头脑风暴。你给出一个话题，人工智能头脑风暴后，给你一个可能的选题列表；
专家推荐。给出一两个领域内作者的名字，人工智能反馈给你领域内权威专家列表。

这些功能的演示，你可以参考视频内容。此处不赘述。令人兴奋的地方，在于 Elicit 的愿景，是为科研人员提供直接准确地查询结果。Elicit 对 Semantic Scholar 等开放文献库进行分析，通过文献计量、信息抽取、自然语言理解、自动摘要等方法技术，掌握文献深度特征和关联，便于你进行细致查询。

由于 Elicit 利用大语言模型 GPT-3 作为驱动引擎，你不需要了解高级检索式，就能通过自然语言的对话形式，让 Elicit 理解你要找什么。这无疑给图情领域之外的研究人员大大减轻了培训负担。

你可能会担心 Semantic Scholar 这样的文献数据库不够全面。不过前些日子，在我院举办的「数据分析与信息服务发展国际会议」上，我请教过 Kevin Boyack 教授。按照他的说法，Semantic Scholar 可以算作是「a global model」，规模是足堪重任的。

我去年那个视频发布以后，Elicit 又不断进化。今年的 2 月底，我还专门做了一次直播，以「How can a video be popular」这个问题作为样例，演示了 Elicit 的一些新功能。

你可以点击这个链接，查看当时的直播回放。今年 5 月份，我又在星球里分享了如何用 Elicit 做科技咨询。

很多读者看过后，反馈热烈。

我发现自己介绍和演示的速度，着实赶不上 Elicit 进化。作为一款（至少目前）免费的工具，Elicit 背后的开发团队真的是很拼。不过我也了解到，很多研究新手因为不了解这款工具的基础功能，浅尝辄止，这非常可惜。

因此我为你写下这篇文章。咱们尝试用简短的篇幅，聚焦在一个问题上 —— 如何用 Elicit 帮助你找寻研究选题。

例子

我们打开 Elicit ，先来输入一个问题：

any recent interesting applications with GPT3?（近期 GPT3 有没有什么有趣应用？）

输入之后，点击查询按钮，Elicit 很快就给出了结构化的结果。

你粗粗浏览，就会发现这里结果中有些「GPT」，并非我们想要的。因为人工智能领域的 GPT (Generative Pre-trained Transformer) 的出现，是近年的事儿。而这里有些结果论文，发表在 1997 年，研究的是另一个 GPT (General Particle Tracer)。检索结果里其他主题乱入，怎么办呢？

对于其他更为棘手的情况，我们可能需要使用全称检索等方法来区分。但是在咱们的例子中，简单粗暴的方法，就是用年代筛选。通过查询可知，GPT-3 出现的时间，在 2020 年 7 月。

所以，你可以使用右侧的 Filter ，把发表时间设定为 2020 之后。

再看看左侧显示结果的内容，已经发生了显著的变化。这次过滤出来的内容，基本上都和我们的问题相关了。

可是我们并不清楚，这些文章的重要性。衡量文章重要性有很多指标，你可以参考我在这篇文章里面的介绍。

不过，为了简化问题，此处咱们让 Elicit 仅依据引用数量进行一个简单的排序。

排序之后，就变成了这个样子：

你可以通过文章的标题和摘要，了解这些论文的研究目标和简单概述。其中有些文章直接可以打开 PDF 文件（蓝色链接），查看具体的研究内容。

有些检索结果条目没有 PDF 直接提供，也不要紧。万不得已，你还可以通过 Semantic Scholar 平台直接找作者申请全文等方式来获取。「只要思想不滑坡，方法总比困难多」嘛。

阅读 PDF 的时候，不妨采用我之前跟你提到的方法，主动从阅读文献里寻找反馈，从而改进自己对于某一领域方法和范式的了解。

你还可以在 Elicit 给出的列表中，加入一系列的元素（列）。例如说作者、来源期刊、资助和 DOI 等信息。

不过若只是展现这些元数据内容，对 Elicit 来说就是大材小用了。你可以让 Elicit 展现智能分析的结果，例如文章的类别、研究方法等。对于实验类的文章，甚至还可以把样本数量、样本具体细节、年龄、区域等信息，都一一抽取出来。

这些资料展示，体现了 Elicit 「细粒度」和「理解自然语言」的特点。它不再满足于提供「书皮功夫」，而是帮助你一追到底，利用 GPT-3 的强大功能，完成信息抽取和梳理。

你可以根据自己的需要，一一尝试这些功能。如果你对有些功能的使用场景和利用方法不了解，可以参考 Ought （Elicit 出品公司）提供的一系列简短教学视频。视频都不长，我之前详细看过几段，觉得很有收获。

下面说说我最喜欢的功能吧——让 Elicit 利用 GPT-3 提供的语言理解功能，尝试直接回答你提出的研究问题。

问答

还记得咱们的问题是啥吗？

any recent interesting applications with GPT3?

这个问题，其实不需要你通过一一浏览文献来达成。因为你可以让 Elicit 加上这一项：

很快你就能看到，对咱们的问题，Elicit 给出了这样的总结。

怎么样？厉害吧？通过自然语言的理解与总结，你提出问题，Elicit 直接给了答案。

不过我需要提醒你，不要对 Elicit 直接给出的回答有过高的预期。有人戏谑现在的人工智能水平，也就是「人工智障」。这话说得难听，但其实有一定道理，毕竟人工智能研究距离「强人工智能」的目标，还有很长的距离。这些自动生成的答案，很可能不够精确，甚至包含了错误。但无论如何，它为你继续深入研究，给出了一个不错基础和起点。有的同学这时候一定不耐烦了：

老师你说这么多有啥用？我就想找个好题目开题啊！找出那么多相关研究，知道了某项技术有哪些应用，对我有什么好处？！我又不能把别人做过的东西再做一遍。

首先，别人的研究，对你有参考价值，特别有助于帮你判定很多研究方向的必要性。其次，咱们不要这么急功近利。别人花几个月时间老老实实做文献综述，你希望靠着 Elicit 几秒钟搞定，这现实吗？嗯，不好说。

我在《如何选研究题目？》一文给你讲过，他人的「研究局限」，可能是你继续研究的一个起点。当然，你需要注意别掉进别人挖的坑。Elicit 的厉害之处，在于可以「博览群文」之后，快速把这些局限给你列出来。比起你一篇篇翻找核对，效率要高出许多。我们这就加入「研究局限」这一列。

注意此次出来的这一列结果，可能并不周全。

有的行，干脆没有内容。这怎么回事儿？

哪篇论文后面没有局限性描述？这东西你都抽不出来，还好意思自称智能？看来 Elicit 真的「人工智障」啊。

你先别急着下结论。你仔细看看「局限」的内容都是什么。可以看到，这些并不完全等同于论文结尾的局限描述，而是实实在在探讨 GPT-3 技术的局限性。这和你提出的问题「高度相关」。那些给出的答案，因为这种高度相关性，可能蕴藏着深入挖掘的价值。

针对别人提出的局限，你若能发挥自己的优势，结合独特视角，给出有价值的新解答，那么胜利就在向你招手。但是且慢，还记得我之前给你提到过研究局限的坑吗？例如这些局限，倘若只是作者给自己后续系列文章做的铺垫，怎么办？

其实答案依然在 Elicit 。我们可以把 Elicit 发现的局限，转换成为新的问题，让 Elicit 在海量的研究文库里面，帮咱们寻找别人的研究成果，以便确定它们是不是有价值的真问题，或者是不是已经被人捷足先登。这样，你可以少走很多弯路。举一反三，试试看吧。

小结

回顾一下本例中咱们使用 Elicit 的流程。

我们首先提出一个不够具体，或者不够有信心的问题。通过 Elicit 给出的结果做出筛选，增加元素，从而不断迭代自己的问题，调整研究的角度，最终找到一个既能满足自己求知欲，又对别人足够有价值的「研究生态位」。

注意刚开始的时候，不要设定一蹴而就找到合适选题的过高期待。因为那样你更容易体验挫折感。如果你很快定位出来了高价值研究问题，恭喜你，运气真棒！如果中间经历波折，也不要紧。这些不断尝试的过程，也在给你积累本领域研究主题和研究成果的认知，Elicit 其实已经在帮助你快速获得清晰完整的研究地图。

篇幅所限，Elicit 的其他好用的功能，本文未一一涉及。鉴于 Elicit 更新频繁，等你读到这篇文章的时候，可能新的好用功能又出来了。保持探索精神，学用合适的工具，高效解决问题吧。

研读科研文献时，你有什么更好用的方法和技巧吗？有没有更推荐的好工具？欢迎留言，分享你的心得，我们一起交流讨论。

如果你觉得本文有用，请充电。如果本文可能对你的朋友有帮助，请转发给他们。欢迎关注我的专栏「科研利器」，以便及时收到后续的更新内容。

延伸阅读

题图：OpenAI DALLE 2 绘制。 prompts: a scientist facing towards the gate of a giant maze

> 下载少数派 2.0 客户端、关注少数派公众号，解锁全新阅读体验 📰

> 实用、好用的正版软件，少数派为你呈现 🚀