正确地解决了这个问题,你的毕业论文之路会轻松愉快许多。

 

题图:Photo by Andrew Neel on Unsplash

痛苦

每年一到毕业论文季,就可以看到朋友圈里大学老师们「比惨大赛」。

单从老师角度看来,你会觉得如今这些学生怎么变得这么过分?都已经到了触目惊心的程度。可是如果你趴在学生的朋友圈,那看到的就是另一番场景了——那种抱怨,仿佛老师们一个个都是「周扒皮」一般。

我不愿意去参加具体事例的争论。因为大部分群体其实都是正态分布。「不需扬鞭自奋蹄」的学生当然有,但是也有佛系到放弃治疗的。老师自然也有「神龙见首不见尾」一直玩儿消失的,但是肯静下心来给学生认真辅导批改,满纸都是红字的也不在少数。

所以,拿苹果和橘子比,没有可比性。况且大规模的毕业论文写作进程出现问题,恐怕不能只按照个体特性来找原因吧?

很多时候,问题并不是出在提交初稿的截止日期那几天(尽管大家都默认「截止日期是第一生产力」),而是在选题的时候就注定了。如果你选了一个不合适的题目,那么这后面一定是个悲剧或者闹剧。

那个题目,你没兴趣,根本做不进去;或者以你当前的水平,根本不可能做出来;更可怕的,是题目本身就是个错误

想想看,一旦给你布置了错误的、不感兴趣的、超乎寻常困难的任务,你会怎么做?

  1. 咬牙做完
  2. 拖延到最后一刻
  3. 干脆放弃

欢迎把你的选择在留言区告诉我。但甭管你选的是哪个,这篇毕业论文的写作都不会是一个愉快的过程了。

选题

要避免写作环节的大坑,你就需要在选题阶段充分下好功夫。毕竟,你对什么题目感兴趣自己最清楚吧?不沟通的情况下,指导教师凭什么未卜先知?

一个好的题目,放到一个不合适的人那里,也是个糟糕的选择。但是,你凭借兴趣选出来的题目,却未必合适。

我之前在《什么样的开题报告会被毙掉?》一文中,给你提到过三种悲惨状况:

  • 没价值
  • 没必要
  • 不靠谱

之后,我又在《如何与导师有效沟通你的论文选题?》一文里,给你补充了该如何通过选题报告的模板,跟指导教师高效沟通选题。

不过不少读者和学生表示,仅仅通过这些原则的学习,还是难以有效应用到自己的选题中。于是,这次我想了个新办法。

案例

办法就是把我给学生批改选题报告的样例,录了个视频教程

当然,为了能够帮你把一些概念厘清,也为了案例里面的内容可以更为通用,我讲得比平时给学生批改选题报告,更加细致一些。好处是这不仅可以帮助你提高吸收的效率,也可以帮助我自己节省时间。

我已经在本科毕业论文指导群里发了这个视频,要求自己的学生看。在撰写选题报告的时候,不能再出现视频里面已经列出和讲解过的错误类型。

批注的过程,如果只是把最后的大花脸结果反馈回去,还真不如视频讲解来得生动、透彻和细腻。这样一来,很多无用功,就可以省下了。因为言语的说教,比不上行动的示范。

 

上面的视频是我围绕这个话题进行的讲授,希望你看后能把感受和疑问反馈给我。后文部分,是给你复习用的

我把视频里面口语化的内容,用书面方式重新进行了梳理和调整。这样后面你回顾复习的时候,就不需要把一段视频从头播放到尾了。

特别感谢我院信管 17 级本科生李孟儒同学帮我转录文字版初稿。做得很认真。谢谢!


题目

这个选题报告中题目为「基于深度神经网络的文娱类股票预测研究」。这个题目最大的问题就是太大,选题一定要做的小一些。

要做股票预测。预测什么?是预测它的存活时间?预测它的价格变化?预测它的成交量的变化?……而且前面加了一个限定词「文娱类股票」,要看哪里的文娱类股票?是研究美国的文娱类股票,英国的,还是在新加坡上市的?即便研究国内的股票市场,还分成了沪深两个市场对吧?

这些你要研究的股票,在哪个板上市的?主板?创业板?新三板?要考虑到各种各样的细分的选择,一定要记住细分。比如说,在深圳股票交易市场某个板的文娱类股票的价格变化。这个变化还包括一个问题,就是要预测一个什么样的时间范围?是预测下一分钟?还是下一小时?下一天?下一个月?……

这不是在做文字游戏,而是涉及到你的模型究竟有没有能力对它进行预测,它背后是要有科学的理论基础。

举一个最简单的例子,我们都知道天气预报。天气预报到底能预测多长时间?现在基本都是 3 天左右,至多一周。为什么是一周?为什么不直接预测一个月出来?因为超过一定的时间范围之后的预测基本上就跟扔硬币没什么区别。那就不叫预测了,叫瞎猜。

同样的,做价格变化预测,首先应该把自己放到一个时间范围里面。到底是做短期,中期,长期,这个是一定要有分界的,不要把它混为一谈。

刚才讨论的是题目的后半部分,就是得把题目缩小。

再看前半部分。

「基于」一般就是方法、模型、工具。这里「深度神经网络」原本可以当成模型,但是没有提到底是哪一种模型。

深度神经网络模型是有若干种的。

一般做视觉,可以用 卷积神经网络(CNN);做文本常用 循环神经网络(RNN) 、LSTM 这些架构。当然,不限于文本,类似于商品价格、股票价格等方面的预测,只要它是一个时间序列,都可以用循环神经网络(RNN 模型)

后来又出现了 Transformers 等新的东西,例如 BERT,Roberta 等,都可以用于自然语言处理。现在一般文本的相关操作,不光是分类,上下文问答等一般都是 Transformers 。这指的是一些大类,它有若干变种。

你看,深度神经网络有这么多的架构,你若不挑出来一个,就把它叫当成「模型」,这不可以。

如同我近期在微信视频号里面讲的,选题时创新应该来自于哪?作为新手,最好让你的创新点来自于「上下文」。如果把题目做得很大很笼统,便没办法在「上下文」跟别人有区别。

认知差

你这份文稿里,定义「认知差」为增加型。这不合适。

一般增加型,是指没人研究过。第一个提出来原子弹可以造的,叫增加型。因为之前谁也不知道这种可能性存在。可是你的问题里,有没有人用深度神经网络做过股票预测研究?

根据我刚才在循环神经网络应用部分的描述,你应该已经清楚——不仅有人做过,而且有很多人做过。

如果股票价格预测准确率足够高,那么就会带来直接经济效益。因此有很多人实际上已经研究过它了,这时候你说是一个增加型,不可能。所以如果坚持继续这个研究方向的话,你能做的就是尝试在其中进行删减或者是改进

再强调一下,「用一定的方法去预测股市的涨跌」这事儿有人已经提出。不管他提的解决方案对不对,或者效果好不好,你对这个事儿的进一步研究,就一律都不能再叫做「增加型」认知差。

不要嫌我啰嗦。论文里面,把认知差搞错了,你后面写作的时候,行文就会有显著区别。要么你中途写不下去,要么就是写出一篇不符合实际的文章。

这在学术界,是非常严重的忌讳。特别是,当你的论文投稿或者送审的时候,如果落在了之前已经在这个方向有建树的学者手中(大概率事件),你却说这个事儿之前没人研究过,你是第一个……自己掂量一下后果。

所以,你得把注意力集中于能不能删减,能不能改进。

这里回应一下前面的内容。为什么要让你把题目弄得精细,进而「小题大做」?因为题目若是越大、越笼统,就越有可能跟别人重叠撞车

文献

你对文献做了可视化分析,这很好。但是一张漂亮的分析结果图,还是远远不够的。让你做这一部分的原因,是为了找 Gap 。

所谓 Gap ,就是间隔。有两种明显的表示。假设这张图是整个文献分布的样子,在外面画一个圈套住已有研究,你研究的问题在圈外。那这个 Gap 非常显著,因为现有研究和你的目标之间没连线。

如果画出来 Gap 是这样,有两种可能。一是你的运气非常好。灯下黑,别人睁着大眼找,硬是没有看到这个低垂的果实。或者,另一种情况,很糟糕。这是一条根本就走不通的路。

一般来说,后一种情况更常见。因为你得明白,已经发表出论文的这些研究者,大部分都是经验丰富的专家。你一个新手都能看得见的 Gap ,他们看不到吗?

所以,一般而言,你更应该关注下面这种类型的 Gap 。当我们发现有一个区域,周围都是非常的密集,说明被别人往复探索。而唯独在这个区域里,出现了一些非常稀疏的网,甚至在这个位置上连接点都没有。

这时候,你就可以考虑在这个位置上,有没有可能通过上下文的交叉,形成一个独特的选题赛道。

「众争勿往」,这句话很重要。别跟着他人一起凑热闹。你是新手,找好了赛道,没啥竞争你就可能直接胜出了。非要跟别人往大道上挤,不是没有可能「逆袭」,但是概率太低。大概率是给别人当分母,甚至干脆被碾压掉。

论证

当你好不容易找到了某个 Gap 时,得把这个结果跟指导教师沟通。否则你做论文还要导师干吗?

但是就如同我在《如何与导师有效沟通你的论文选题?》一文里跟你提过的。你必须自己先做验证。小学做数学题时,你应该就知道交卷之前得验算一遍了,对吧?

首先你的问题变化了。这不是最初你关心的那个大问题,而是你找到的独特赛道,它因为各种上下文的限制,肯定是个相对「小」的问题。那么这个「小」问题是不是依然具有重要性?那可不一定,你得论证。

你得论证出,这个小问题的解决,将直接促进大问题的推动。或者反过来,若是能够说明这个小问题是解决大问题的必要条件,那就更好了。

其次是必要性。一个东西重要,却未必必要。

轮子很重要,没有轮子就不可能有车。但是「重复发明轮子」不必要。因为轮子发明一次就够了。你得证明,在这样一个小的研究空间里,别人忽略了什么。补足别人忽略的那些东西,才是真正的必要性。

第三个是「靠谱」。想想看,一个小问题,它很重要,也很必要,但是别人又没把它做出来……会不会它本身从原理上就做不出来呢?例如永动机。

结合你的选题来看。研究股票价格预测,你的来源数据是什么?如果来源数据是根据以往它的价格历史,推测后面价格变化。这个事儿是不是靠谱呢?看着 K 线图,你可能觉得挺靠谱的。但其实不是这样。

利用历史来预测未来,认为历史上出现的事儿,未来就一定发生,这就是「看着后视镜开车」。例如说,你根据去年某旅游公司的业绩预测其今年业绩,能成吗?

黑天鹅,灰犀牛……各种外部因素的综合作用,使得我们不能臆想所有的变化都是连续的,都是按照原先的趋势来运行,进而叠加一些随机波动。所以,真正的股票价格预测实践,早已加入了很多外部信息。例如好多年前,就有人尝试把 Twitter 数据加入,利用大众情感来预测走势。效果未必多么完美,但是至少看起来比单一的根据历史价格预测未来价格好许多。

但是这样看起来,你得找多少外部数据灌进去啊?新闻、社交媒体、分析报告、公司公告……这好像是彭博社的活儿吧?你一个人替它全干了?再说,即便有了上述全部数据,你也依然没有创新,因为别人都做了。

那你得在深度神经网络模型的架构上,有自己的变化和改进。这……似乎更不靠谱了吧?

即便有了上述的数据和新的更巧妙的深度学习模型架构,你有那么多 GPU 帮你算吗?要靠谱啊。

参考文献

前面相关的分析结果,你倒是未必非得要用 Vosviewer,即便手绘也可以,但是要注意数据和结果的对应性

你此时分析的来源数据,就是参考文献。这里你给出的文献分析结果图是英文的,但参考文献全是中文的。这怎么回事儿?参考文献应该是分析的数据来源和支撑,来源要扎实,分析也要扎实。

当然,我这里并不是说,让你把所有的分析图都变成中文。如果某个领域,最前沿的成果在中文文献,你就找多中文文献;反之,如果最前沿的成果在外文文献,你也不应该忽略。

以你的选题而言,深度神经网络模型研究,目前主流前沿的研究在英文期刊与会议上。所以还是得多找一些英文文献。做文献分析,最好是能够综合起来,一起看。这样比较全面,尤其是避免忽略重要的文献

研究方法

研究方法环节,写的时候不要把「非研究方法」写上。例如说有的同学做了文献回顾,就写「文献分析法」,要不得。因为那是一个必要步骤,不是你文章主要的研究方法;有的同学写「实证研究方法」,这也不对,因为实证研究是一套方法论。你具体用了什么方法?例如问卷调查?访谈?实验?仿真?数据挖掘?案例研究?……

你做的研究,基于机器学习方法,那就写「机器学习」就好。最好稍微提一下,机器学习应用在了哪些主要环节上,以便让人一眼看出,你的研究方法和研究目的之间是否匹配。

格式

另外多说一句,我希望你后面再提交文稿时,直接提交 PDF 版本,因为 word 版本,是易于多人合作进行编辑。但是,如果希望别人在不同设备上打开,显示效果能够保持一致,避免出现格式错乱的误会。 PDF 会更好些。


小结

通过这份教程的学习,希望你了解以下几个选题中常见的问题及其应对方法。

首先是题目太大。太大的题目,往往都被别人触碰过,因此不利于你找到自己的独特赛道,很容易被大牛碾压。

其次是认知差定位不当。这会导致你的叙述,与真实的情况不符合,导致很多严重的问题。

第三是选题验证不完整。一定要从「价值」、「必要性」与「靠谱程度」三个维度入手,说服你的指导教师。如果连自己都说服不了,那就改吧。

第四是参考文献不完整,不系统,特别是对前沿优质研究成果有重大遗漏。

最后是列出的研究方法不符合规范。要实事求是,根据实际情况针对性列出主要研究方法即可,不要为了数量多好看,而随意添加。

欢迎你把观看视频和阅读图文教程的收获,在留言区反馈给我。

祝选题和论文进展顺利!

喜欢别忘了点赞,并及时写下你的感受与评论

也欢迎你转发给有需要的亲朋好友,让他们也加入咱们的讨论中来。

如果你需要更加系统的科研知识,记得购买我的专栏《科研新手全面入坑指南》——

 

延伸阅读

你可能也会对以下话题感兴趣。点击链接就可以查看。