Mac跑大模型,首选LM Studio

huangyihe
Oct 27, 2024

--

视频号:黄益贺;YouTube / Medium: huangyihe;以下为视频内容的文字版

如果你用的是M系列芯片的苹果电脑,想要在机子上跑大模型,那么我强烈推荐你用LM Studio。因为它支持专门为M系列芯片优化过的模型文件,运行速度快了不止一点。

我用手里这台M2芯片的Macbook Air做了一个简单的对比。同一款大模型,同样的需求,左边是优化版,右边是咱们之前常用的GGUF版。肉眼可见,左边的速度快多了。从每秒token生成的速度来看,优化版的模型快了一倍。

哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注,只要有一个视频你看进去了,就赚大了。如果想链接我,就来newtype社群。已经有500多位小伙伴付费加入啦!

回到今天的主题:LM Studio。

在本地运行大模型的工具中,LM Studio和Ollama是最受欢迎的两款。在最近这一次的更新中,LM Studio新增了对MLX的支持。

这个拗口的MLX,是苹果公司开源的一个机器学习框架,专门为M系列芯片做了优化,比如采用了统一内存模型、对应统一内存架构。所以,使用这个框架就可以非常高效地部署和运行模型。

MLX去年12月才开源,还很新,但是在社区支持下发展很快,主流模型都有对应的版本。在最新版本的LM Studio中也特意做了标注和筛选,方便苹果用户下载。

如果你之前没安装过LM Studio,可以到官网下载对应的版本。安装完毕之后,打开软件,左边栏是它的主要功能页面,包括聊天模式、服务器模式、查看已有模型等等。进入发现页面,就可以搜索和下载模型了。

就像刚才说的,LM Studio把MLX版的模型专门标注出来了,大家在列表里很容易找到。它默认是推荐Staff Pick也就是官方推荐的模型,如果你想要更多,那就选择Hugging Face,会把所有模型都列出来。

不同量化版本的模型,体积不一样,大家根据配置和需求选择。如果下载不动,那大概率是网络原因,这个就只能各自想办法了。

等模型文件下载好了,咱们就可以在聊天模式里加载它。LM Studio提供了各种设置,我这边就用默认的。

为了做这个不严谨的对比,主要是为了给大家一个直观的感受,我让AI帮我写一个贪吃蛇的Python游戏。由于还开着录屏,所以对速度会有影响。不过即使在这种情况下,优化版模型跑起来还是很流畅的。你再看普通版的情况,这差得也太多了。

之前很多人抨击苹果在AI方面落后了,国内媒体也老写小作文。但是,你如果真的有在关注的话就知道,苹果现在绝对已经赶上来了。他们在硬件上的积累远超那些PC厂商。

我之前在社群专属视频里就讲过苹果的自研模型,遥遥领先隔壁安卓厂商。在桌面端,有了MLX框架,就能发挥出统一内存架构的最大优势:

CPU和GPU可以直接访问共享内存中的数据,不需要进行数据传输。小规模操作用CPU搞定。遇到计算密集型的需求再上GPU。

硬件层、系统层、应用层一体化,这才是AI终端该有的样子。这也是我选择在这个时间点做一次大升级:把我用了这么多年的mini换成iPhone 16 Pro — — 我准备11月托朋友代购个港版,以及M4版Macbook Pro出来后,买个16寸顶配。到时我会给大家分享一系列的使用体验。

最后,one more thing。如果大家一直在用AI软件就会发现,最近有一大波密集更新。各家都在扩张自己的势力范围。比如咱们今天聊的LM Studio,以前它只是一个偏后端的软件,帮你在本地跑跑大模型。现在,它把聊天模式往前提了,添加了RAG功能。这种主动从后端走向前端的打法会逐渐成为各家的共同选择。AI应用大混战的阶段要来了。

OK,以上就是本期内容。想进一步交流AI,来我们newtype社群。那咱们下期见!

--

--

No responses yet