总结:
什么是本地部署?
AI本地部署就是在你家里或者在公司等本地环境启动一个大模型,不需要调用接口,数据不出自己家门,完全自主可控。简单说就是自己买车和租车,自己租女友和娶回家,去饭店吃和自己家里做的区别。
为什么要本地部署
1、注重隐私、2注重优化3、注重技术
1、什么是注重隐私:不需要联网调用厂商接口,所有计算在你家机柜完成,数据不出门!也就避免了有些公司(政务、财经、医疗、法律等)的敏感数据(财报、内部敏感信息)被公有云厂商记录和倒卖,比如三星员工违规使用GPT泄露了商业机密。
2、什么是注重优化:就类似你去饭店吃饭,他做什么你吃什么,里面是地沟油你也要吃。在家做饭就可以完全控制食材,卫生,时间,等全方位细节。本地大模型也一样。如何控制上下文的长度,如何添加谷歌搜索,如何限制权限,如何实现追问。算法和功能所有细节都自主可控。
3、什么是注重技术:AI时代,你想比别人强,特别是技术出身的程序员等,要想和别人拉开差距,去面试AI岗位,人家问你本地部署过没,你好意思说没有吗,那不妥妥的直接我不行,直接下一位了。
云端方案|豪门与寒门的抉择
本地部署
云端 API / 租赁
💰成本
一张显卡 = 一辆五菱宏光
按次收费,细水长流
⚙️维护
每周重启比大姨妈还准时
甩锅给厂商,躺平就行
🔒安全
数据锁进自家保险柜
就像把日记存菜鸟驿站
🚀灵活度
想怎么魔改就怎么魔改
只能用厂商给的 "阉割版"
用 API 就像租女朋友,本地部署才是娶回家!
普通人上车指南
❗️烧钱三件套:
❗️技术三板斧:
❺ 暴击灵魂的抉择时刻
✅适合人群:
❌快逃警告:
本地部署就像娶了个烧钱小祖宗,但当你看着自家 AI 吐出机密数据时 —— 那种掌控感,比中彩票还爽!🎰 所以问题来了:你是要当云计算的打工人,还是做自家 AI 帝国的秦始皇?👑
服务器线上部署:vLLM、SGLang和Xinference。
个人测试首选:Ollama、LM Studio
适合入门:Ollama:新一代深度学习框架:https://m.mingzhang.cc/cms/soft/7dcz
快速简洁的大语言推理入门首选,支持GGUF和SafeTensor格式。支持Windows,但是默认的Qwen2 72B是4 bit量化版本。
适合入门:LM Studio桌面App,支持大语言模型和嵌入模型,只支持GGUF格式。
LM Studio支持Windows,但是每次加载模型都要重新配置一遍参数,而且默认是只Offload 20%的计算到GPU,所以每次都得去调到最大,性能也不稳定。还有一个原因,每次加载之后才能修改Offload到GPU为最大,然后每次相当于要加载两遍,跑了好多次之后,nvidia-smi提示找不到GPU了,要重启电脑。
生产推荐:SGLang是一个用于大语言模型和视觉语言模型的快速服务框架。不支持Windows。
vLLM是一个快速且易于使用的用于大语言模型(LLM)推理和服务的库。不支持Windows。
生产推荐:Xorbits Inference:分布式大模型推理框架
https://m.mingzhang.cc/cms/soft/g6bd
各种模型都支持,大语言模型,嵌入模型,SD模型,Audio模型。。。支持Windows,支持集群;适合商业;但是其大语言模型的推理引擎也只能用llama.cpp或者Transformer,Transformer都是默认加载全精度的,所需显存较大。
localai
GPT4All
LM Studio
vLLM
h2oGPT