如何做一份合格的毕业论文选题报告？

正确地解决了这个问题，你的毕业论文之路会轻松愉快许多。

题图：Photo by Andrew Neel on Unsplash

痛苦

每年一到毕业论文季，就可以看到朋友圈里大学老师们「比惨大赛」。

单从老师角度看来，你会觉得如今这些学生怎么变得这么过分？都已经到了触目惊心的程度。可是如果你趴在学生的朋友圈，那看到的就是另一番场景了——那种抱怨，仿佛老师们一个个都是「周扒皮」一般。

我不愿意去参加具体事例的争论。因为大部分群体其实都是正态分布。「不需扬鞭自奋蹄」的学生当然有，但是也有佛系到放弃治疗的。老师自然也有「神龙见首不见尾」一直玩儿消失的，但是肯静下心来给学生认真辅导批改，满纸都是红字的也不在少数。

所以，拿苹果和橘子比，没有可比性。况且大规模的毕业论文写作进程出现问题，恐怕不能只按照个体特性来找原因吧？

很多时候，问题并不是出在提交初稿的截止日期那几天（尽管大家都默认「截止日期是第一生产力」），而是在选题的时候就注定了。如果你选了一个不合适的题目，那么这后面一定是个悲剧或者闹剧。

那个题目，你没兴趣，根本做不进去；或者以你当前的水平，根本不可能做出来；更可怕的，是题目本身就是个错误。

想想看，一旦给你布置了错误的、不感兴趣的、超乎寻常困难的任务，你会怎么做？

咬牙做完
拖延到最后一刻
干脆放弃

欢迎把你的选择在留言区告诉我。但甭管你选的是哪个，这篇毕业论文的写作都不会是一个愉快的过程了。

选题

要避免写作环节的大坑，你就需要在选题阶段充分下好功夫。毕竟，你对什么题目感兴趣自己最清楚吧？不沟通的情况下，指导教师凭什么未卜先知？

一个好的题目，放到一个不合适的人那里，也是个糟糕的选择。但是，你凭借兴趣选出来的题目，却未必合适。

我之前在《什么样的开题报告会被毙掉？》一文中，给你提到过三种悲惨状况：

没价值
没必要
不靠谱

之后，我又在《如何与导师有效沟通你的论文选题？》一文里，给你补充了该如何通过选题报告的模板，跟指导教师高效沟通选题。

不过不少读者和学生表示，仅仅通过这些原则的学习，还是难以有效应用到自己的选题中。于是，这次我想了个新办法。

案例

办法就是把我给学生批改选题报告的样例，录了个视频教程。

当然，为了能够帮你把一些概念厘清，也为了案例里面的内容可以更为通用，我讲得比平时给学生批改选题报告，更加细致一些。好处是这不仅可以帮助你提高吸收的效率，也可以帮助我自己节省时间。

我已经在本科毕业论文指导群里发了这个视频，要求自己的学生看。在撰写选题报告的时候，不能再出现视频里面已经列出和讲解过的错误类型。

批注的过程，如果只是把最后的大花脸结果反馈回去，还真不如视频讲解来得生动、透彻和细腻。这样一来，很多无用功，就可以省下了。因为言语的说教，比不上行动的示范。

上面的视频是我围绕这个话题进行的讲授，希望你看后能把感受和疑问反馈给我。后文部分，是给你复习用的。

我把视频里面口语化的内容，用书面方式重新进行了梳理和调整。这样后面你回顾复习的时候，就不需要把一段视频从头播放到尾了。

特别感谢我院信管 17 级本科生李孟儒同学帮我转录文字版初稿。做得很认真。谢谢！

题目

这个选题报告中题目为「基于深度神经网络的文娱类股票预测研究」。这个题目最大的问题就是太大，选题一定要做的小一些。

要做股票预测。预测什么？是预测它的存活时间？预测它的价格变化？预测它的成交量的变化？……而且前面加了一个限定词「文娱类股票」，要看哪里的文娱类股票？是研究美国的文娱类股票，英国的，还是在新加坡上市的？即便研究国内的股票市场，还分成了沪深两个市场对吧？

这些你要研究的股票，在哪个板上市的？主板？创业板？新三板？要考虑到各种各样的细分的选择，一定要记住细分。比如说，在深圳股票交易市场某个板的文娱类股票的价格变化。这个变化还包括一个问题，就是要预测一个什么样的时间范围？是预测下一分钟？还是下一小时？下一天？下一个月？……

这不是在做文字游戏，而是涉及到你的模型究竟有没有能力对它进行预测，它背后是要有科学的理论基础。

举一个最简单的例子，我们都知道天气预报。天气预报到底能预测多长时间？现在基本都是 3 天左右，至多一周。为什么是一周？为什么不直接预测一个月出来？因为超过一定的时间范围之后的预测基本上就跟扔硬币没什么区别。那就不叫预测了，叫瞎猜。

同样的，做价格变化预测，首先应该把自己放到一个时间范围里面。到底是做短期，中期，长期，这个是一定要有分界的，不要把它混为一谈。

刚才讨论的是题目的后半部分，就是得把题目缩小。

再看前半部分。

「基于」一般就是方法、模型、工具。这里「深度神经网络」原本可以当成模型，但是没有提到底是哪一种模型。

深度神经网络模型是有若干种的。

一般做视觉，可以用卷积神经网络（CNN）；做文本常用循环神经网络（RNN）、LSTM 这些架构。当然，不限于文本，类似于商品价格、股票价格等方面的预测，只要它是一个时间序列，都可以用循环神经网络（RNN 模型）。

后来又出现了 Transformers 等新的东西，例如 BERT，Roberta 等，都可以用于自然语言处理。现在一般文本的相关操作，不光是分类，上下文问答等一般都是 Transformers 。这指的是一些大类，它有若干变种。

你看，深度神经网络有这么多的架构，你若不挑出来一个，就把它叫当成「模型」，这不可以。

如同我近期在微信视频号里面讲的，选题时创新应该来自于哪？作为新手，最好让你的创新点来自于「上下文」。如果把题目做得很大很笼统，便没办法在「上下文」跟别人有区别。

认知差

你这份文稿里，定义「认知差」为增加型。这不合适。

一般增加型，是指没人研究过。第一个提出来原子弹可以造的，叫增加型。因为之前谁也不知道这种可能性存在。可是你的问题里，有没有人用深度神经网络做过股票预测研究？

根据我刚才在循环神经网络应用部分的描述，你应该已经清楚——不仅有人做过，而且有很多人做过。

如果股票价格预测准确率足够高，那么就会带来直接经济效益。因此有很多人实际上已经研究过它了，这时候你说是一个增加型，不可能。所以如果坚持继续这个研究方向的话，你能做的就是尝试在其中进行删减或者是改进。

再强调一下，「用一定的方法去预测股市的涨跌」这事儿有人已经提出。不管他提的解决方案对不对，或者效果好不好，你对这个事儿的进一步研究，就一律都不能再叫做「增加型」认知差。

不要嫌我啰嗦。论文里面，把认知差搞错了，你后面写作的时候，行文就会有显著区别。要么你中途写不下去，要么就是写出一篇不符合实际的文章。

这在学术界，是非常严重的忌讳。特别是，当你的论文投稿或者送审的时候，如果落在了之前已经在这个方向有建树的学者手中（大概率事件），你却说这个事儿之前没人研究过，你是第一个……自己掂量一下后果。

所以，你得把注意力集中于能不能删减，能不能改进。

这里回应一下前面的内容。为什么要让你把题目弄得精细，进而「小题大做」？因为题目若是越大、越笼统，就越有可能跟别人重叠撞车。

文献

你对文献做了可视化分析，这很好。但是一张漂亮的分析结果图，还是远远不够的。让你做这一部分的原因，是为了找 Gap 。

所谓 Gap ，就是间隔。有两种明显的表示。假设这张图是整个文献分布的样子，在外面画一个圈套住已有研究，你研究的问题在圈外。那这个 Gap 非常显著，因为现有研究和你的目标之间没连线。

如果画出来 Gap 是这样，有两种可能。一是你的运气非常好。灯下黑，别人睁着大眼找，硬是没有看到这个低垂的果实。或者，另一种情况，很糟糕。这是一条根本就走不通的路。

一般来说，后一种情况更常见。因为你得明白，已经发表出论文的这些研究者，大部分都是经验丰富的专家。你一个新手都能看得见的 Gap ，他们看不到吗？

所以，一般而言，你更应该关注下面这种类型的 Gap 。当我们发现有一个区域，周围都是非常的密集，说明被别人往复探索。而唯独在这个区域里，出现了一些非常稀疏的网，甚至在这个位置上连接点都没有。

这时候，你就可以考虑在这个位置上，有没有可能通过上下文的交叉，形成一个独特的选题赛道。

「众争勿往」，这句话很重要。别跟着他人一起凑热闹。你是新手，找好了赛道，没啥竞争你就可能直接胜出了。非要跟别人往大道上挤，不是没有可能「逆袭」，但是概率太低。大概率是给别人当分母，甚至干脆被碾压掉。

论证

当你好不容易找到了某个 Gap 时，得把这个结果跟指导教师沟通。否则你做论文还要导师干吗？

但是就如同我在《如何与导师有效沟通你的论文选题？》一文里跟你提过的。你必须自己先做验证。小学做数学题时，你应该就知道交卷之前得验算一遍了，对吧？

首先你的问题变化了。这不是最初你关心的那个大问题，而是你找到的独特赛道，它因为各种上下文的限制，肯定是个相对「小」的问题。那么这个「小」问题是不是依然具有重要性？那可不一定，你得论证。

你得论证出，这个小问题的解决，将直接促进大问题的推动。或者反过来，若是能够说明这个小问题是解决大问题的必要条件，那就更好了。

其次是必要性。一个东西重要，却未必必要。

轮子很重要，没有轮子就不可能有车。但是「重复发明轮子」不必要。因为轮子发明一次就够了。你得证明，在这样一个小的研究空间里，别人忽略了什么。补足别人忽略的那些东西，才是真正的必要性。

第三个是「靠谱」。想想看，一个小问题，它很重要，也很必要，但是别人又没把它做出来……会不会它本身从原理上就做不出来呢？例如永动机。

结合你的选题来看。研究股票价格预测，你的来源数据是什么？如果来源数据是根据以往它的价格历史，推测后面价格变化。这个事儿是不是靠谱呢？看着 K 线图，你可能觉得挺靠谱的。但其实不是这样。

利用历史来预测未来，认为历史上出现的事儿，未来就一定发生，这就是「看着后视镜开车」。例如说，你根据去年某旅游公司的业绩预测其今年业绩，能成吗？

黑天鹅，灰犀牛……各种外部因素的综合作用，使得我们不能臆想所有的变化都是连续的，都是按照原先的趋势来运行，进而叠加一些随机波动。所以，真正的股票价格预测实践，早已加入了很多外部信息。例如好多年前，就有人尝试把 Twitter 数据加入，利用大众情感来预测走势。效果未必多么完美，但是至少看起来比单一的根据历史价格预测未来价格好许多。

但是这样看起来，你得找多少外部数据灌进去啊？新闻、社交媒体、分析报告、公司公告……这好像是彭博社的活儿吧？你一个人替它全干了？再说，即便有了上述全部数据，你也依然没有创新，因为别人都做了。

那你得在深度神经网络模型的架构上，有自己的变化和改进。这……似乎更不靠谱了吧？

即便有了上述的数据和新的更巧妙的深度学习模型架构，你有那么多 GPU 帮你算吗？要靠谱啊。

参考文献

前面相关的分析结果，你倒是未必非得要用 Vosviewer，即便手绘也可以，但是要注意数据和结果的对应性。

你此时分析的来源数据，就是参考文献。这里你给出的文献分析结果图是英文的，但参考文献全是中文的。这怎么回事儿？参考文献应该是分析的数据来源和支撑，来源要扎实，分析也要扎实。

当然，我这里并不是说，让你把所有的分析图都变成中文。如果某个领域，最前沿的成果在中文文献，你就找多中文文献；反之，如果最前沿的成果在外文文献，你也不应该忽略。

以你的选题而言，深度神经网络模型研究，目前主流前沿的研究在英文期刊与会议上。所以还是得多找一些英文文献。做文献分析，最好是能够综合起来，一起看。这样比较全面，尤其是避免忽略重要的文献。

研究方法

研究方法环节，写的时候不要把「非研究方法」写上。例如说有的同学做了文献回顾，就写「文献分析法」，要不得。因为那是一个必要步骤，不是你文章主要的研究方法；有的同学写「实证研究方法」，这也不对，因为实证研究是一套方法论。你具体用了什么方法？例如问卷调查？访谈？实验？仿真？数据挖掘？案例研究？……

你做的研究，基于机器学习方法，那就写「机器学习」就好。最好稍微提一下，机器学习应用在了哪些主要环节上，以便让人一眼看出，你的研究方法和研究目的之间是否匹配。

格式

另外多说一句，我希望你后面再提交文稿时，直接提交 PDF 版本，因为 word 版本，是易于多人合作进行编辑。但是，如果希望别人在不同设备上打开，显示效果能够保持一致，避免出现格式错乱的误会。 PDF 会更好些。

小结

通过这份教程的学习，希望你了解以下几个选题中常见的问题及其应对方法。

首先是题目太大。太大的题目，往往都被别人触碰过，因此不利于你找到自己的独特赛道，很容易被大牛碾压。

其次是认知差定位不当。这会导致你的叙述，与真实的情况不符合，导致很多严重的问题。

第三是选题验证不完整。一定要从「价值」、「必要性」与「靠谱程度」三个维度入手，说服你的指导教师。如果连自己都说服不了，那就改吧。

第四是参考文献不完整，不系统，特别是对前沿优质研究成果有重大遗漏。

最后是列出的研究方法不符合规范。要实事求是，根据实际情况针对性列出主要研究方法即可，不要为了数量多好看，而随意添加。

欢迎你把观看视频和阅读图文教程的收获，在留言区反馈给我。

祝选题和论文进展顺利！

喜欢别忘了点赞，并及时写下你的感受与评论。

也欢迎你转发给有需要的亲朋好友，让他们也加入咱们的讨论中来。

如果你需要更加系统的科研知识，记得购买我的专栏《科研新手全面入坑指南》——

延伸阅读

你可能也会对以下话题感兴趣。点击链接就可以查看。