Matrix 首页推荐
Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。
文章代表作者个人观点,少数派仅对标题和排版略作修改。
保持探索精神,学用合适的工具,高效解决问题吧。
痛苦
对你来说,读文献,特别是读自己感兴趣的文献,可能是件非常令人愉悦而激动的事儿。例如海华,他读博的时候我到 UNT 访学,跟他在一个实验室。他时常一边读最新的顶会论文,一边击节赞叹。读到开心之处,他会高声喊出来,还兴奋地把我拉过去一起看。我觉得他是把信息检索读出了《冰与火之歌》的意境。
但是论及阅读海量文献,试图从中找寻自己的研究选题,可能就没有那么轻松愉悦了。原因大家都清楚 —— 论文太多了,而且产生速度极快。即便是水平顶尖的学者,也不敢夸下海口,说自己读过领域内全部重要文献。因为就在你说话这几分钟里,可能又有(不止一篇)新的论文发表了,里面兴许就包括重要的新观点和新发现。这于是就构成了个显著的矛盾:
余生也有涯,而论文无涯。以有涯逐无涯,game over .
可是,不充分全面了解领域的发展,你又怎么寻找和验证自己的选题呢?你兴冲冲地给别人展示自己的新发明,一种有效降低界面摩擦提升运输效率的装置。然后别人一脸狐疑:
这玩意儿,不是叫做轮子吗?
对于科研新手来说,通过研读论文来找寻选题,还担负着必要科研训练的目的。新手在选择「读哪些论文」这个问题上,没有经验,整体过程可能要经历更多挫折和弯路。有的学生不愿意自己耗费无用功,会干脆把这个问题推给导师。
老师老师,您给我布置一个论文阅读列表吧。
如果导师对你的研究方向熟悉,这事儿还好说。可如果不巧你的研究方向是导师尝试进入的新领域,那么这件事儿上他能提供的帮助很有限。这么多的新论文,他也没有都读过来,又怎么去分辨其中哪些论文更有价值呢?最终,还是得你自己去一片迷雾中不断探索。这中间,你可能会遗漏很多重要成果,甚至干脆走错了方向。
好在,你可以充分利用工具。古人航海可以用指南针,今天你开车有导航。同样,在科研的世界里漫游,你也可以借助一些更为有效的工具,减少大量的无用功耗费。
工具
我给你推荐的这款人工智能科研辅助工具,叫做 Elicit ,链接在这里。2021 年 10 月 20 日,我刚发现了它时,就给你做了一则视频。
我在视频里,归纳了当时 Elicit 提供了几类主要功能,包括:
- 文献推荐。给定选题后,推荐文献的同时,还给出论断(claim);
- 头脑风暴。你给出一个话题,人工智能头脑风暴后,给你一个可能的选题列表;
- 专家推荐。给出一两个领域内作者的名字,人工智能反馈给你领域内权威专家列表。
这些功能的演示,你可以参考视频内容。此处不赘述。令人兴奋的地方,在于 Elicit 的愿景,是为科研人员提供直接准确地查询结果。Elicit 对 Semantic Scholar 等开放文献库进行分析,通过文献计量、信息抽取、自然语言理解、自动摘要等方法技术,掌握文献深度特征和关联,便于你进行细致查询。
由于 Elicit 利用大语言模型 GPT-3 作为驱动引擎,你不需要了解高级检索式,就能通过自然语言的对话形式,让 Elicit 理解你要找什么。这无疑给图情领域之外的研究人员大大减轻了培训负担。
你可能会担心 Semantic Scholar 这样的文献数据库不够全面。不过前些日子,在我院举办的「数据分析与信息服务发展国际会议」上,我请教过 Kevin Boyack 教授。按照他的说法,Semantic Scholar 可以算作是 「a global model」,规模是足堪重任的。
我去年那个视频发布以后,Elicit 又不断进化。今年的 2 月底,我还专门做了一次直播,以 「How can a video be popular」 这个问题作为样例,演示了 Elicit 的一些新功能。
你可以 点击这个链接,查看当时的直播回放。今年 5 月份,我又在星球里分享了 如何用 Elicit 做科技咨询。
很多读者看过后,反馈热烈。
我发现自己介绍和演示的速度,着实赶不上 Elicit 进化。作为一款(至少目前)免费的工具,Elicit 背后的开发团队真的是很拼。不过我也了解到,很多研究新手因为不了解这款工具的基础功能,浅尝辄止,这非常可惜。
因此我为你写下这篇文章。咱们尝试用简短的篇幅,聚焦在一个问题上 —— 如何用 Elicit 帮助你找寻研究选题。
例子
我们打开 Elicit ,先来输入一个问题:
any recent interesting applications with GPT3?(近期 GPT3 有没有什么有趣应用?)
输入之后,点击查询按钮,Elicit 很快就给出了结构化的结果。
你粗粗浏览,就会发现这里结果中有些 「GPT」 ,并非我们想要的。因为人工智能领域的 GPT (Generative Pre-trained Transformer) 的出现,是近年的事儿。而这里有些结果论文,发表在 1997 年,研究的是另一个 GPT (General Particle Tracer)。检索结果里其他主题乱入,怎么办呢?
对于其他更为棘手的情况,我们可能需要使用全称检索等方法来区分。但是在咱们的例子中,简单粗暴的方法,就是用年代筛选。通过查询可知,GPT-3 出现的时间,在 2020 年 7 月。
所以,你可以使用右侧的 Filter ,把发表时间设定为 2020 之后。
再看看左侧显示结果的内容,已经发生了显著的变化。这次过滤出来的内容,基本上都和我们的问题相关了。
可是我们并不清楚,这些文章的重要性。衡量文章重要性有很多指标,你可以参考 我在这篇文章里面的介绍。
不过,为了简化问题,此处咱们让 Elicit 仅依据引用数量进行一个简单的排序。
排序之后,就变成了这个样子:
你可以通过文章的标题和摘要,了解这些论文的研究目标和简单概述。其中有些文章直接可以打开 PDF 文件(蓝色链接),查看具体的研究内容。
有些检索结果条目没有 PDF 直接提供,也不要紧。万不得已,你还可以通过 Semantic Scholar 平台直接找作者申请全文等方式来获取。「只要思想不滑坡,方法总比困难多」嘛。
阅读 PDF 的时候,不妨采用 我之前跟你提到的方法,主动从阅读文献里寻找反馈,从而改进自己对于某一领域方法和范式的了解。
你还可以在 Elicit 给出的列表中,加入一系列的元素(列)。例如说作者、来源期刊、资助和 DOI 等信息。
不过若只是展现这些元数据内容,对 Elicit 来说就是大材小用了。你可以让 Elicit 展现智能分析的结果,例如文章的类别、研究方法等。对于实验类的文章,甚至还可以把样本数量、样本具体细节、年龄、区域等信息,都一一抽取出来。
这些资料展示,体现了 Elicit 「细粒度」和「理解自然语言」的特点。它不再满足于提供「书皮功夫」,而是帮助你一追到底,利用 GPT-3 的强大功能,完成信息抽取和梳理。
你可以根据自己的需要,一一尝试这些功能。如果你对有些功能的使用场景和利用方法不了解,可以参考 Ought (Elicit 出品公司)提供的一系列简短教学视频。视频都不长,我之前详细看过几段,觉得很有收获。
下面说说我最喜欢的功能吧——让 Elicit 利用 GPT-3 提供的语言理解功能,尝试直接回答你提出的研究问题。
问答
还记得咱们的问题是啥吗?
any recent interesting applications with GPT3?
这个问题,其实不需要你通过一一浏览文献来达成。因为你可以让 Elicit 加上这一项:
很快你就能看到,对咱们的问题,Elicit 给出了这样的总结。
怎么样?厉害吧?通过自然语言的理解与总结,你提出问题,Elicit 直接给了答案。
不过我需要提醒你,不要对 Elicit 直接给出的回答有过高的预期。有人戏谑现在的人工智能水平,也就是「人工智障」。这话说得难听,但其实有一定道理,毕竟人工智能研究距离「强人工智能」的目标,还有很长的距离。这些自动生成的答案,很可能不够精确,甚至包含了错误。但无论如何,它为你继续深入研究,给出了一个不错基础和起点。有的同学这时候一定不耐烦了:
老师你说这么多有啥用?我就想找个好题目开题啊!找出那么多相关研究,知道了某项技术有哪些应用,对我有什么好处?!我又不能把别人做过的东西再做一遍。
首先,别人的研究,对你有参考价值,特别有助于帮你判定很多研究方向的必要性。其次,咱们不要这么急功近利。别人花几个月时间老老实实做文献综述,你希望靠着 Elicit 几秒钟搞定,这现实吗?嗯,不好说。
我在《如何选研究题目?》一文给你讲过,他人的「研究局限」,可能是你继续研究的一个起点。当然,你需要注意别掉进别人挖的坑。Elicit 的厉害之处,在于可以「博览群文」之后,快速把这些局限给你列出来。比起你一篇篇翻找核对,效率要高出许多。我们这就加入「研究局限」这一列。
注意此次出来的这一列结果,可能并不周全。
有的行,干脆没有内容。这怎么回事儿?
哪篇论文后面没有局限性描述?这东西你都抽不出来,还好意思自称智能?看来 Elicit 真的「人工智障」啊。
你先别急着下结论。你仔细看看「局限」的内容都是什么。可以看到,这些并不完全等同于论文结尾的局限描述,而是实实在在探讨 GPT-3 技术的局限性。这和你提出的问题「高度相关」。那些给出的答案,因为这种高度相关性,可能蕴藏着深入挖掘的价值。
针对别人提出的局限,你若能发挥自己的优势,结合独特视角,给出有价值的新解答,那么胜利就在向你招手。但是且慢,还记得我之前给你提到过研究局限的坑吗?例如这些局限,倘若只是作者给自己后续系列文章做的铺垫,怎么办?
其实答案依然在 Elicit 。我们可以把 Elicit 发现的局限,转换成为新的问题,让 Elicit 在海量的研究文库里面,帮咱们寻找别人的研究成果,以便确定它们是不是有价值的真问题,或者是不是已经被人捷足先登。这样,你可以少走很多弯路。举一反三,试试看吧。
小结
回顾一下本例中咱们使用 Elicit 的流程。
我们首先提出一个不够具体,或者不够有信心的问题。通过 Elicit 给出的结果做出筛选,增加元素,从而不断迭代自己的问题,调整研究的角度,最终找到一个既能满足自己求知欲,又对别人足够有价值的「研究生态位」。
注意刚开始的时候,不要设定一蹴而就找到合适选题的过高期待。因为那样你更容易体验挫折感。如果你很快定位出来了高价值研究问题,恭喜你,运气真棒!如果中间经历波折,也不要紧。这些不断尝试的过程,也在给你积累本领域研究主题和研究成果的认知,Elicit 其实已经在帮助你快速获得清晰完整的研究地图。
篇幅所限,Elicit 的其他好用的功能,本文未一一涉及。鉴于 Elicit 更新频繁,等你读到这篇文章的时候,可能新的好用功能又出来了。保持探索精神,学用合适的工具,高效解决问题吧。
研读科研文献时,你有什么更好用的方法和技巧吗?有没有更推荐的好工具?欢迎留言,分享你的心得,我们一起交流讨论。
如果你觉得本文有用,请充电。如果本文可能对你的朋友有帮助,请转发给他们。欢迎关注我的专栏「科研利器」,以便及时收到后续的更新内容。
延伸阅读
题图:OpenAI DALLE 2 绘制。 prompts: a scientist facing towards the gate of a giant maze
> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰
> 实用、好用的 正版软件,少数派为你呈现 🚀