核心特性
API 设计:Python API 类似 NumPy,C++ API 类似 PyTorch,提供mlx.nn
等高级模块。
统一内存:数据存储在共享内存中,无需手动在 CPU/GPU 间迁移。
延迟计算:仅在需要时执行计算,减少资源占用。
动态图与优化:支持自动微分、向量化和计算图优化。
性能表现:
在苹果芯片上,多数操作速度优于 PyTorch 的 MPS 后端(如线性层快 2 倍)。
部分操作(如排序、BCE)甚至超过 CUDA GPU,但卷积层仍需优化。
消除数据传输延迟,整体效率在端侧设备上显著提升。
应用场景
直接在 Mac 设备上训练和推理 LLM(如 LLaMA、Stable Diffusion)。
科研原型开发和快速模型迭代。
开源生态:支持 Python、C++、Swift,提供示例库(如 Transformer 训练、语音识别)。