作為國內首家成功部署全量版DeepSeek-R1-671B的醫療機構,深圳大學附屬華南醫院通過創新的量化技術和動態算力分配策略,實現了千億參數模型在醫療場景的落地應用。
面對大模型部署的算力挑戰,華南醫院通過采用INT4量化技術,將671B模型的顯存需求從1.34TB降至336GB,僅需32張H100顯卡即可流暢運行。更巧妙的是,醫院同時部署了32B、70B和671B三個版本,讓用戶可以根據任務復雜度靈活切換,既提升了復雜臨床問題的處理能力,又優化了算力資源的使用效率。
在技術落地的過程中,安全性和可靠性是醫療AI不可逾越的紅線。華南醫院人工智能團隊發現,使用Ollama工具部署時,存在未授權訪問等安全風險。為此,他們通過嚴格的本地網絡隔離和安全加固,并進行了全面的壓力測試,確保系統在高并發場景下的穩定性。
針對大模型普遍存在的「幻覺」問題,華南醫院開創性地將RAG技術與專病知識庫相結合。以外掛臨床指南、專家共識等權威資料的方式,不僅顯著提升了回答的準確性,還能標注答案出處,實現了診療建議的可追溯性。
3月27日,深圳大學附屬華南醫院醫學人工智能研究所副所長張永波做客健康界ALL in Al Health 創新應用大講堂,揭秘大模型部署工程細節,分享技術選型、AI幻覺與安全風險規避經驗,展望「AI醫院」從構想逐步變為現實的路徑。
本文精選部分內容,供廣大同仁交流,歡迎在評論區留言。
算力優化策略 量化技術與動態模型切換
大模型本地化部署對于硬件資源要求較高,比如CPU、GPU、內存、存儲以及網絡帶寬等。其中顯卡和GPU的選擇是重中之重。下表展示了醫院部署DeepSeek R1不同參數版本的顯存需求以及推薦的顯卡配置。
張永波介紹,華南醫院在部署的過程中是選擇量化的方式,也就是將模型中的權重和激活從高精度(如 FP32或FP16)轉換為低精度(如INT8或INT4)的過程,從而降低內存占用和計算需求,同時縮小模型體積,加速推理。
醫院最終選擇了以INT4量化顯存來部署。如此,僅需一個336GB的顯存,32×H100的顯卡配置是能夠完全滿足671B的本地化部署需求。
「盡管醫院投入了大量硬件資源,但由于671B模型的參數量龐大,算力需求極高,仍無法滿足全院所有人員的并發使用需求。」張永波坦言,所以醫院部署了三種參數,希望讓用戶能夠有序地、基于任務的復雜程度去選擇不同的模型版本。
比如簡單對話,32B模型版本就能夠很好實現,如果涉及到比如數學問題、代碼邏輯推理或者復雜的臨床診療問題時,就需要切換到671B全量參數的模型,讓其去做推理。
(院內人員可基于自己的任務需求,切換不同參數版本模型。)
部署大模型
需防Ollama「裸奔」風險
確定了方略之后,如何進行部署?華南醫院是基于Ollama工具,進行DeepSeek的本地化部署。
Ollama是一個用于本地運行和管理大語言模型(LLM)的命令行工具,它不僅集成了很多包括DeepSeekR1在內的開源大模型,提供適用于macOS、Windows 及 Linux等多種平臺的安裝包,內置了GPU相關驅動,能夠讓用戶在本地環境中輕松部署、運行和監控AI模型。
「但是Ollama有一個問題,就是滿足了速率,犧牲了性能。」張永波坦言,當初華南醫院人工智能團隊為了能夠快速實現部署而使用了Ollama工具,但是后面在開發過程中發現,基于Ollama部署的DeepSeek在高并發量情況下是存在缺陷的,比如說同時50個用戶去訪問DeepSeek模型,可能會出現系統崩潰問題。
另一個非常重要的就是安全問題。3月3日,國家網絡安全通報中心發布《關于大模型工具Ollama存在安全風險的情況通報》,提醒用戶如使用Ollama私有化部署且未修改默認配置,就會存在數據泄露、算力盜取、服務中斷等安全風險。
「由于華南醫院采用本地部署方案,且未開放Ollama的訪問端口,因此有效規避了潛在的安全風險。」他表示。
在完成本地模型部署后,需要評估當前軟硬件環境下的模型效能,定位系統瓶頸,也為后期負載均衡提供數據支持。張永波介紹,具體可以通過延遲、吞吐量、資源利用率、階梯加壓、極限測試等幾個方面進行性能基準測試和壓力測試。
注:文章來源于網絡,如有侵權,請聯系刪除