刚刚在看另一篇关于背单词的文章的时候,无意在评论区发现COCA60000词频表

好奇心驱使我去搜了搜,原来这是高频词汇表,有人整理了COCA20000的单词,放到github上:coca-vocabulary-20000

日常我使用Logseq作为笔记软件,Logseq有个功能是闪念卡片(flashcard),我感觉和anki的记忆卡片差不多。之前也时不时用它来背些单词,但都是自己在工作中碰到生词,就记下来,比较零散。正好看到有人整理完整的词汇表,就想着,能不能导入到Logseq中来记忆。经过我的实践,我得出的结论是可以。

先看看实现后的效果吧

使用Logseq背单词的好处在于,可以很方便地添加批注,自定义程度很高。你可以把一个单词比较陌生的意思高亮,让自己下次注意。也可以在单词的后面自己造句,加深记忆。

或者是添加一个图片,通过图片来联想。

也可以双向链接这些单词,比如你发现,诶这个单词和我之前背过的一个单词很像,那你可以把近义单词的ref,加在下面,比如:

具体实现

要实现这个目的,最重要的是解决格式问题。

最初将仓库作者整理的md文件导入Logseq,文件的呈现方式是:

需要调整格式,把每个单词都变成Logseq可以识别的卡片,具体来说,

  1. 在单词后面添加标签 #card
  2. 把需要隐藏(记忆)的部分,缩进到单词的下一层级。

然后就可以在Logseq的flashcards中记忆这个单词啦。一开始只显示单词,你可以回忆一下这个单词是什么意思。

点击show answers之后,显示释义,可以选择对这个单词的掌握程度

  • 完全忘了
  • 得想一会儿
  • 记住了

这决定了以后它出现的频率。

那怎么批量修改所有的单词呢?这可是20000个。

像这样格式统一的md文件用python来处理最好了,而GPT可以帮我写出这个python脚本。

我的prompt
Claude给出的回答

让我们用两个md文件试一试这个脚本,看起来处理之后很完美地符合了我们的要求

导入logseq试试,可以看到右上角剩余卡片是402个,也就是我们导入测试的单词数,导入成功~

 

祝大家背单词愉快~我把修改完格式的md文件,上传到这个fork后的仓库里了。