Matrix 首页推荐 

Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。

文章代表作者个人观点,少数派仅对标题和排版略作修改。


AI 的发展速度实在是太快了,每天、每个月都有大量新的信息。

你是不是在每天看公众号文章、刷小红书、刷短视频的时候,也看到很多 AI 相关的推送:昨天马斯克开源了 Grok、今天阿里开启了通义灵码的内测、明天 KimiChat 又开启了 200W 上下文的模型内测、Suno.ai 3.0 又上线了生成的音乐质量大大提高……但因为有大量的信息差,自己又不知道应该如何学习 AI ,留给自己的只有一堆问题:

如果我不学习 AI 的话,我会不会被落下?AI 可以给我的生活带来哪些帮助?我想要学习 AI,应该怎么学?这些问题,最终变成了信息焦虑。

所以今天就讲一下,我是如何学习 AI 的。

AI 有什么用?

人工智能 (Artificial Intelligence) 是一项很年轻的技术,最早可以追溯到 20 世纪 50 年代,但直到 2006 年科学家提出了深度学习的概念以后,人工智能才真正进入人们的视野。

而我们今天说的 AI ,具体来说是从 2022 年 11 月份开始,由 ChatGPT 引发的 AI 热潮,更具体地说,我们实际在讨论的主要是「生成式 AI」。

生成式AI是一种人工智能技术,它能够基于已有的数据创造或生成新的内容。就像一个会画画的机器人,它学习了成千上万的画作后,能够自己画出一幅新的画。这种AI在音乐、文本、图片和视频等领域都能发挥作用,它通过理解数据的模式和规律,然后应用这些知识来创造新的东西。简单来说,生成式AI就是一个能够「想象」并创造出新事物的智能系统。

生成式人工智能 (GenAI)

生成式 AI 都可以理解为 AI 在文字的提示下生成内容。根据内容载体不同,则可以分为这几个方向:文生文、文生图、文生视频和文生音频。

  • 文生文:ChatGPT、Claude、KimiCChat、文心一言、通义千问等等,都是大语言模型,可以理解为是文字生文字,只要你提供一份提示词,他就会按照你的要求生成文字。将生成的文字的场景扩展一下,就包括了写作,总结,对话,情感分析等等场景。
  • 文生图、图生图:经常刷到的 Stable Diffusion、Midjourney 都是基于 diffusion 技术,通过输入一段提示词,AI 就会生成对应的图片。
  • 文生视频:前段时间爆火的 Sora,就是 OpenAI 公司的文生视频技术,这项技术在还没有任何公测内测的情况下,仅仅依靠 openAI 公司放出的视频预览就引爆了全球。另外,基于 diffusion 技术的 Stable Video Diffusion(简称 SVD) 也在发展之中。
  • 文生音频:TTS 技术,可以用来做音色复刻、语音合成、音乐合成等等,这些技术我没有系统地研究过,只知道有这些作用。

如果按照技术的成熟度来看「文生文>文生音频>文生图>文生视频」。现在在讨论的 AI 技术,都是围绕这些生成式 AI 的方向,如果你的生活或工作中并不需要这些,那么或许你并不需要 AI,生活也可以过得很好;而如果你对 AI 感兴趣想要踏入这片洪流,那么让我们开始学习 AI。

如何进入 GenAI 这个新范式

在我看来,生成式 AI 无疑是一种新的「范式」。

范式是科学共同体在某个时期内普遍接受的一套科学理论、实验方法、仪器设备以及解释自然现象的规则和标准。

从今天开始,人类的所有活动都将离不开生成式 AI,那么如何进入这个新的范式?

如何进入一个新的领域

在聊如何学习 AI 之前,我们先聊一个更大的问题 ——如何进入一个新领域。

拿到一张地图

在进入一个新的领域的时候,最重要的事情就是手里有一张地图。——干嘉伟

进入一个新的领域,就好像我们在踏足一个完全陌生的地域一样。最重要的是只拿到一张这个领域的地图。而对于刚刚进入 AI 领域的人来说,AI 的地图是什么?

时间轴上,你需要了解 AI 的大概发展历程,这里推荐一本书叫《深度学习革命》,讲的是 GPT3.5 之前的深度学习往事,可以让你对深度学习短暂的历史有一个初步的了解。

当然,AI 发展的历程非常短,从 2020 年开始,AI 的发展像是突破了一个「奇点」一样,突然间学术界和商业界两开花,爆发出来很多个方向,也有很多个细分领域的知识。

地平线上,当下 AI 的发展热度如前文所说,大概有这么几个方向:

  • 文生文
  • 文生图
  • 文生音频
  • 文生视频

每个领域的热门产品,你需要去做基础的了解、试用。当然,如果你想要更全面地了解学术界中,对一个领域的综述,例如学习大语言模型领域,可以阅读【LLM_Survey】大语言模型综述

最小必要知识

进入任何一个新领域的学习,都是由浅入深的。最开始我们可能学习一些概念,学习一些基本的框架和原理,再学习更加深入、更加前沿的知识。

延续着这个思想,每一个领域都有「最少必要知识」。

当需要某项技能的时候,一定要想办法在最短的时间里弄清楚都有哪些最少必要知识。然后迅速掌握他们。

掌握了最少必要知识,就可以打败其余 80% 的人。就好像在球类运动中,练好基本功,就可以打败 90% 的人类一样,在任何一个领域掌握「最小必要知识」,都可以快速与其他人拉开差距。

再例如,

设计的最小必要知识,是组织好信息架构和颜色选择,组织好信息架构,意味着你可以将复杂的信息,抽象并组织成有结构的信息并表达。颜色选择,则是让设计好看的关键。

摄影的最小必要知识,是画面构成和成像原理,了解了相机的成像原理,懂得如何调整 ISO、曝光时长,光圈大小和快门速度。懂得如何构建画面,就可以随手拍出引领朋友圈的图片。

在 AI 领域,需要掌握的最小必要知识,我认为是生成式 AI 的原理和使用。如上文提到的,了解当下最流行的生成式大语言模型和稳定扩散技术,并在自己的工作和生活中应用,就可以打败 80% 的人。在这里推荐我的朋友——随意搜寻 Newsletter 主理人 Jimmy 的入门课程

从这个网页中,你可以学习到:

  • 如何有结构地书写 ChatGPT 的 prompt
  • Stable Diffusion 的原理
  • 使用 Midjourney 生成图片
  • 如何使用 Stable Diffusion 画图
01-learningprompt

新手村的打怪任务

当掌握了最少必要知识后,你就掌握了打怪练级的方法。如果你要将一个技能完全掌握,一定离不开实践,离不开练习。

所以在完成了最小必要知识的学习以后,你需要完成新手村的打怪任务:

  • 用大语言模型来生成内容
  • 掌握结构化 prompt 写作的能力,用 ChatGPT 来满足内容生产工作
  • 用 Midjourney 生成图片
  • 用 Stable dDiffusion 生成图片
  • Suno.ai 生成一段音乐

第一次使用大语言模型

这一步就好像第一次学习代码的人的 print("Hello World")  一样,欢迎你走进 AI 的世界。

现在大语言模型的选择非常多了,国内的有文心一言、通义千问、KimiChat、豆包……国外的有 ChatGPT、Claude、Gemini……打开这些大模型应用的网站或者 APP,发出你的第一条指令吧。由此进入这个生成式 AI 一问一答的新范式。

02-LLM

结构化 prompt 能力学习

prompt 就是提示词的意思,这个词以后会经常用到,在文生图、文生视频等等场景中,prompt 就是提示词的意思。

你给模型提供一个提示词,它会按照你的提示词生成内容。在大语言模型领域,好的 prompt 可以帮助你显著提高模型的生成效果。如果你要有文本生成的场景,学习结构化的 prompt 是必须的。

学习方法可以参考我之前写作的文章《ChatGPT prompt 编写指南:让 AI 替你工作》。

Midjourney 生成图片

掌握使用 Mjidouney 的能力,让手残的你也可以画出好看的图片。我之前写过这篇文章,详细讲解了我的是怎么用 Midjourney 来画自己的红包封面的。

在 Midjourney 中输入一些关键词,就可以生成好看的图片。例如我的红包封面的 prompt:

chinese dragon, cute, anime, flying, chinese spring festival atmosphere,chinese dragon, cute, anime, flying, chinese spring festival atmosphere --ar 3:4 --niji 5
03-midjourney

这看起来或许这是一些英文拼接起来,其实 Midjourney 的 prompt 词语也有自己的技巧,你可以阅读 Midjourney 的官方文档来学习。网络上也有做得比较好的免费课程,这类视频 B 站就很多了,可以搜索。

04-mjofficial

使用 Stable Diffusion 生成图片

理论上 Midjourney 和 Stable Diffusion 都使用了 diffusion 技术。那为什么体验过 Midjourney 后还要体验 Stable Diffusion 呢?

那是因为虽然二者基于的技术相同,但是路线是完全不一样的。

Midjourney 的愿景是降低生产好看的图片的难度,并且走得是闭源的路线,通过大量艺术家的图片训练,让用户可以轻松地制作好看的图片。而 Stable Diffusion 公司的愿景则是让 diffusion 技术变得更加稳定,走的是开源路线,因为其开源生态,很多设计师和开发者在 Stable Diffusion 的基础上搭建起了一个很强大的模型生态。

换句话说,Midjourney 只能让你体验图片生成模型,而真正要学习和研究,还得学会 Stable Diffusion。

Stable Diffution 在本地部署需要较大的算力支持,你可以通过一些在线的方式来体验。比如 stability.ai 的官方体验网站 Dream Studio,输入 prompt、选择不同的模型生成图片即可。

用 SunoAI 生成一段音乐

最近 Suno 更新了 v3 版本的模型,生成的音乐质量好了非常多,因此也受到了一波广泛的关注。你可以让 ChatGPT 帮你生成一段歌词,然后将歌词交给 Suno 生成一段音乐试试。

06-suno

用 Pika 或 Runway 生成一段视频

Pika 和 Runway 的功能类似,可以让一张静态图动起来。已经开始有一些 up 主使用这两个工具来制作视频。不过目前还是比较初级的阶段,只能用来做一些简单的动作。

你可以用前面 Midjourney 生成的图片,上传到 Pika 或者 Runway 后输入一些描述词生成视频试试。

07-pika

我曾经试过让前面 Midjourney 生成的红包封面动起来,但是看起来 Pika 对二次元图像的支持还比较差,生成的质量差强人意。

找到一个方向,持续学习

AI 领域的特点

生成式 AI 领域最大的特点就是「快」。发展的时间短,发展速度快,并且正在快速变化中。

比如我们上文提到的 Stable Diffusion 技术,也不过是从 2020 年才开始有的技术。这样的特点意味着,我们学习的知识都是最前沿的、是碎片化的。很多知识你可能无法直接在书籍中学习。

大量的知识来自于互联网、大模型厂商的更新公告、UP 主的视频教程等。这非常依赖个人的信息处理能力:信息检索能力、信息过滤能力、信息处理能力、碎片化学习能力、组织信息的能力……

找到你的兴趣点

AI 的细分发展方向非常多,并且每一个方向目前也都在高速发展中。四个大类(文生文、文生图、文生音频、文生视频)每个方向上还有很多不同的技术路线、不同的应用场景。

不同的技术路线,例如 Chatbot、RAG (搜索增强生成)、Agent (代理等等),Agent 里还分单一 agent、multi-agent、auto-agent ,而不同的技术路线在不同的场景下,应用又非常不同。

所以当你面临如此新颖、方向又非常多的情况时,老实说你的能力和精力都不能支持你面面俱到。在这种情况下,最好的方式就是「T 型学习」,也就是说在一个你最感兴趣的领域深入地研究和学习,同时在其他领域保持最基础的学习活动。

这时兴趣就是最好的老师。找到你感兴趣的方向深入地研究下去吧,去学习最前沿的知识,找到实际的落地场景,你付出的时间肯定会得到回报。在这个非常早期的阶段,投资时间的 ROI 是非常高的。

优质信息在哪里?

在学习的时候肯定会遇到这个问题:每天面临这么多的信息,新的信息非常多,如何筛选优质信息呢?

一个基本的公式是:一手信息>二手信息>三手信息。

一手信息

一手信息,指直接从原始数据源获得的信息,这些数据源可以是直接观察、实验、调查、访谈或其他第一手经验。这种信息通常是原创的、未经他人处理或解释的。

一手信息最多地见于:

  • 学术论文
  • 大公司的网站

有阅读 paper 能力的朋友可以关注自己感兴趣领域的论文,这里推荐几个网站。

第一个网站是 BriefGPT,定位是将论文翻译成中文后推送。可以在网站内进行论文查询和订阅。

085-papernews

第二个网站是 Arxiv,海外的论文网站,大部分 AI 相关的论文都会发布到这里。

09-arxiv

第三个网站是辅助你看论文的网站 - Connected papers,顾名思义,是你搜索一篇论文后,他可以根据论文之间的引用关系,推荐查看更多的论文。

10-controlpaper

大公司的网站这边,常见的大模型厂商,OpenAI、Claude、Midjourney 等,都提供了官方说明文档。在文档中往往可以读到很多不错的内容。

例如 OpenAI 就在自己的网站中提供了最佳实践,Claude 也在自己的文档中提供了在 Claude 中编写 prompt 的最佳实践。类似的厂商还有很多,想要了解什么,就先翻翻他们的官方文档吧。

二手信息

二手信息的定义,是指已经发布或存在的信息,经过再一次的信息传递,二手信息已经经过整理、分析、解释或总结过。因为现在 AI 的信息太多太新了,二手信息的存在是必要的。通过好的二手信息创作者。可以帮助我们更好的获取信息。

二手信息最多的来源,也就是「网友们」。这类行为可以类比为 Curate 策展,和我写 newsletter 的效果是一样的,将好的信息整理后分享。网友们会在网络上分享:

  • 新的技术、新的工具
  • 自己使用 AI 的一些体验和方法

这些都是不错的学习资料。AI 行业常见的二手信息聚集地点是一些社交媒体,比如即刻、推特、一些 KOL 的 Newsletter、网站等。这里也推荐一些我经常查看的信息源:

首先是即刻(国内 AI 浓度最高的社区)。一般来说,关注【AI 探索站】和【人工智能讨论组】这两个圈子就可以看到很多高质量的 AI 讯息和用法。当然也推荐一些我经常阅读的用户:

  • @歸藏:第一时间同步 AI 咨询,分享 LLM 和 Stable Diffusion 的使用方法,同时也是 AIGC Weekly Newsletter 的主理人,每周发布 AI 最新咨讯。
  • @JimmyWang:learning prompt 网站的创始人,同时也是「随意搜寻」Newsletter 的主理人
  • @吕立青_JimmyLv.eth:BibiGPT(可以总结 B 站视频和播客)这个产品的主理人
  • @余一.Dev:分享大语言模型的使用方法
  • @海辛Hyacinth:拥有强大的 Stable Diffusion 炼图能力
  • @Simon阿文:拥有强大的 Stable Diffusion 炼图能力
  • @idoubi:前腾讯高级工程师,AI 应用开发者,非常强,开发过几乎所有赛道的主流 AI 产品
  • 再推荐一波我自己的账号 @潦草学者:我不再即刻分享 AI 咨询,会更新有用的 AI 使用方法

即刻还有很多优秀的创作者,在即刻镇活跃一段时间后,你自然可以找到你想关注的人。

Twitter 同样也是海外 AI 浓度最高的社区,中文英文的很多优秀博主都在。同样分享一些我经常关注的推特博主:

  • @dotey:宝玉老师,分享 AI 领域的课程翻译,prompt,开发方法等。同时也是博客主理人。宝玉老师在微博会同步更新,微博搜索宝玉即可。
  • @WaytoAGI 最好的中文 AI 知识库的账号,是有一群 AGI 爱好者们组建的社区
  • @hanqing_me 汗青,专注于探索 AI 短视频创作,AI Talk 是他目前正在创作的项目
  • @oran_ge 橘子,AI 行业从业者,优秀产品经理,非常坦诚有趣的人。
  • @vista8 向阳乔木,分享效率工具,LLM 的使用方法

推特同样有很多优质的英文博主,但是由于英语能力的限制,我平时读的比较少

  • @sama OpenAI CEO Sam Altman 的账号,同样推荐他的博客 blog.samaltman.com
  • @thesephist Linus,该怎么介绍他呢,是一位集艺术和科技于一身的画一开发者

通过博主之间的互相转发,可以帮助你发现更多有趣的博主。

AI 行业的 Newsletter 也有一些推荐:

  • 前文提到的@歸藏 老师的 AIGC Weekly,订阅地址
  • Ben’s Bite:每日分享 AI 咨询,订阅地址
  • 另外也可以关注 Product Hunt Weekly,毕竟现在几乎一半的新产品都是 AI 相关的,可以看看又有哪些 AI 产品上新了。
  • 同样也推荐我的 Newsletter —— 草稿拾遗

三手信息

三手信息的定义,则是经过不懂的人简化,修改的信息,通常是为特定目的而编制的信息。对于这类信息,我们应该避开、摒弃。

常见的三手信息,比如短视频平台的 AI 讯息视频,我非常不建议通过短视频来学习。短视频这个媒体形式,短、平、快,载体本身决定了其更适合用来承载娱乐内容而不是知识。再者,我认为通过视频来学习知识真的太容易被带偏了。

有几点原因:

  1. 可以利用精美的画面/语言语气煽动情绪来掩盖逻辑漏洞
  2. 看视频多数是被动学习的场景,很少人会看过视频后进行批判性思考
  3. 视频传播,为了观众容易理解和接受,知识是经过极大地简化的

如果真的想认真学习,最好的方式是选择阅读文字。如果文字读不下去,可以选择系统的视频教程。

视频学习的好处是更适合用来模仿学习,比如学习某项运动,看视频的效果要远远好过读书。或者是从未接触过代码或深度学习的新手,通过看视频+模仿,学习的效果也会比阅读书籍更好。

P.S. 在 2020 年我就提出了不建议通过视频学习的观点。

11-videostudy

番外:碎片化和系统的信息之争

学习根据学习内容的时间长短,可以分为系统化学习和碎片化学习。

  • 碎片化学习,如读一篇短文,看一个小红书笔记,刷一个短视频等
  • 系统化学习,则是指学习一门课程,阅读一本非虚构书籍,看长视频等

一般来说,在一个成熟的领域里,我们认为系统化信息的信息质量,信息密度会远高于碎片化信息。

碎片化学习来的知识很快,但往往是分散的,需要你自己将碎片化的学习组织成知识系统。为竞争力的碎片化知识,作用是比较弱的,单独的知识点很难发挥作用,只有将知识点连成线,形成网络,组织成体系,知识与知识之间的联动才能发挥更多的作用。

系统化学习学到的内容更加系统,有逻辑,可以形成完整的知识体系。但需要投入的时间和精力更多。老旧的知识系统也可能跟不上最新的内容。

在成熟的领域,我们推荐使用「杠铃阅读法」:

杠铃阅读法

在纳西姆塔勒布的随机性丛书(《随机漫步的傻瓜》《黑天鹅》《反脆弱》《非对称性风险》) 中,都提到了一种阅读方法:杠铃式阅读法。杠铃式阅读法是指阅读时,只阅读时间线的两端。一端是领域内经典的书籍,另一端则是最前沿的研究成果、案例和正在发生的事情。

阅读经典,是因为他们经过时间的检验。林迪效应说,一个东西存在时间越久的东西,他的预期寿命就越长。像《论语》这样的经典会永远传承下去,刚刚上架的没什么用的书,大概率被历史淘汰掉。

阅读前沿,是因为可以获得相对时间差。

12-barbellread

信息甄别

在 AI 领域,一切的信息都还太新了,导致 AI 领域的杠铃或许不太平衡,需要你有自己的信息甄别能力。

系统化的信息是有的,比如前面提到的吴恩达的人工智能课程,做的相对系统和完善。但更多的,还都是碎片化的信息:

论文是碎片化的,但是论文之间有相互引用,引用的网络会更系统些

动态是碎片化的,需要你自己甄别优质的博主

文章是碎片化的,需要你评估文章的质量(当然你也可以用 AI 来评估,参考我的上一篇文章 《基于 KimiChat 的渐进式阅读法》。

寻找领域内的 GenAI 最佳实践

学习和思考是相辅相成的,只有在实际行动中获得反馈并进行思考,才能真正深入学习。

在做中学,学习速度是最快的,效果也是最好的。学习并将 AI 运用到自己的工作和生活的事件中。在做的过程中,学到的东西也更扎实更深刻。先做起来、再复盘,则可以学到更多。

关于 AI 的实践,你可以在了解了 AI 的学习领域后,在你熟悉的领域,找到一个最佳实践。

「最佳实践」是指在特定领域内经过实践检验并证明具有卓越效果的技术、方法、流程、活动或机制。它们之所以被称为「最佳」,是因为这些实践能够在提高效率、降低成本、提升质量、确保安全、增强客户满意度等方面展现出超越平均水平或现有做法的优势。

通用人工智能的一个特点就是「通用」,拿 ChatGPT 来距离,我相信每一个行业,每一个职位使用 ChatGPT 的方法可能是不一样的。

例如我在《ChatGPT 对普通人来说有什么用?》这篇文章中举的例子:教师可能会用 ChatGPT 来完成一些类似学生评价的工作,但作为一名产品经理,我可能完全无法理解公务员或者老师,会在他们的生产力场景中,使用生成式 AI 解决什么问题。只有通过访谈才能理解。

因为生成式 AI 的应用场景非常分散、非常垂直。所以在你熟知的领域里,通过将你的行业/职业方法论,你的知识体系与 GenAI 相结合,一定可以做出属于你的「最佳实践」。

做一个开发者

调用 LLM 的接口,开发一个 AI 对话机器人

最入门级的调用,可以对接任意一家 LLM(大语言模型)厂商的接口,再结合一些本地可视化的 WebUI 项目,例如 Gradio 或者 ollama webui,实现一个可以在本地对话的对话机器人。

使用丰富的 Hugging Face 调用大模型

Hugging Face 是一家专注于自然语言处理(NLP)领域的公司,它提供了一个同名的开源平台,旨在促进深度学习和自然语言处理技术的发展和应用。

Hugging Face 在网站上提供了一个模型中心,用户可以在这里找到和共享各种预训练模型和数据集,以及一个在线演示平台,可以直接在网页上测试大多数模型。你可以根据自己的需要,选择其中的模型来调用。

除此之外,Hugging Face 更强大的地方在于开发了 Transformer 库,你可以安装 Hugging Face 的库,完成对大模型的预训练、微调、推理等工作。

14-huggingface

开发一个 RAG 对话机器人

图像路线的下一个挑战是 RAG(Retrieval Augmented Generation),翻译过来就是「搜索增强生成」——将内容向量化后存储,每次生成时结合向量化搜索,将最接近搜索问题的结果作为上下文传给大语言模型来辅助大语言模型生成更好的内容。

15-RAG

你可以基于 Langchain 来实现这个功能。LangChain是一个开源的编程框架,专门设计用于开发由大型语言模型(LLM)驱动的应用程序。开发者通过使用 langchain 的模块化设计的功能,可以更简单地实现链式调用、记忆机制、流失处理等,完成 AI 的开发工作。

自己部署 Stable Diffusion

如果你选择的是图像生成的路线,最重要的就是在本地将 Stable Diffusion 部署起来。你可以使用 web-UI 或者 comify UI 来搭建。B站的 UP 主 @秋枼aaaki 分享了整个 web-UI 项目,可以在他的视频中找到。

使用开源的 diffusion 模型

Civitai.com 这个网站上有很多用户分享的模型,你可以下载一些模型到本地试跑。这个网站有点像 LLM 领域的 Hugging Face,不过因为我不是走图像路线的,了解并不深入,就不展开了。

16-civitai

当然,还有更多可以开发的防向,不过因为笔者的兴趣点是 LLM 的方向,对其他领域的研究还比较少,无法分享更多。

做一个造物者

学习 AI 的下一个领域就是创造了。

当然这一步的需要有更强的专业知识,需要有基础的深度学习,自然语言理解,图像理解等的知识。因为我目前也不具备,所以也还在学习中, 只能给大家指引一下方向。

微调大语言模型,解决自己遇到的问题

如果你在做一些固定的文字生成任务时,发现现有的大模型实现的效果不好,可以通过 fine-tuning 技术来对大语言模型进行微调。

微调,现在使用得最多的方法是 Lora,简单地说就是生成风格的微调,通过输入 QA 对来纠正大语言模型的生成效果。微调后的模型会更符合你想要的生成效果。

目前各大大语言模型厂商都提高了 fine-tuning 的接口,可以通过这些接口微数据进行微调;如果是本地部署的模型,也可以使用前面提到的 Hugging Face 提供的 Transformer 库来微调。

训练自己的 Stable Diffusion 模型

Stable Diffusion 同样也是支持微调的,并且训练起来要不文本简单很多。我目前所知道的就是输入大量的图片后,对图片进行标记并提交训练。

同样因为我并不是走图像生成的路线,这里没办法展开更多。

其他

到造物者部分我能写的东西并不多。主要还是因为自己能力有限。

因为知识是分形增长,新的知识总是在边界出现,任何知识都有边界,当你足够接近一个知识时,就知道他的使用边界,而往往在知识的边界探索,就能发现新的知识,能够创造新的联系。

到了创造这个领域,方向肯定是更多的,很多都是最新的学术成果。只是我目前浅薄的知识,只能写到这里了。等我学习到更多再来和大家分享。

和这个领域的人交流

人类的信息源可以分为三类:阅读、交谈、做事。前面我们讲了阅读和做事,剩下一个就是交流。

交流的作用非常大,找到与你志同道合的朋友,除了能够找到同行人外,还可以增加思维碰撞的机会,思维的碰撞往往可以产生火花。

做什么,就叫什么领域的朋友。学习 AI,当然要找到有共同目标的朋友一起讨论,一起学习。另外就是要和比自己厉害的人中交流,可以获得的书本以外的知识。书本的内容是泛化的,书中的内容是一般的,与人对话的内容是具体的。

许多重要的知识、深刻的体验,很难用文字描述,也就无法记录到书中。「重要的不是你知道什么,而是你认识谁」。知识是只能通过你自己的努力去获取的,而人脉可以获取别人具有的知识。

如果你能使用人力杠杆,就可以外包你学习的时间,让别人替你学习。

公开学习

与人交流的方法之一,是公开你的学习过程。

像上文提到的一样,你可以在推特或是即刻这样的平台公开你的学习过程,分享你独特的 AI 使用方法,这会招徕和你有共同兴趣爱好的朋友。目前国内愿意沉下心来学习 AI 的人还是非常少的,所以这个圈子应该不会太大。

结语

这篇文章花了很长时间写作和编辑。

因为 AI 学习是一个很大的话题,我尝试把文章写的更加简单,但这样深度又不够。但但我尝试写的更加深入,除了在我擅长的领域,很多领域我也没办法很好的写好,篇幅也不够。经过不断调整后,最终写成了这样。

不管你目前处在哪个阶段,希望读到这篇文章,都会有收获。

如果这篇文章对你有帮助的话,可以点赞文章,或是转发给你喜欢的人,或是给我买杯咖啡,也可以关注我的公众号和我一起学习,你的支持是我坚持下去的动力。

> 关注 少数派小红书,感受精彩数字生活 🍃

> 实用、好用的 正版软件,少数派为你呈现 🚀