Ollama 0.1.35 版本现已推出¶

摘要

新版特性简介：NVIDIA 推出了新的 Llama 3 ChatQA 模型，专长于对话式问答和检索增强生成。此外，引入了模型量化功能，使得在导入模型时可以进行量化处理。此次更新还修复了一系列技术问题，如清理推理子进程、多 GPU 系统上的内存溢出问题、ollama run 命令中的新行处理、视觉模型展示问题、API 请求处理以及文件管理。新版本还新增了生成停止原因的解释，并在多 GPU 系统上运行不同模型时，更准确地评估可用内存量。

新模型介绍

Llama 3 ChatQA：这是一个由 NVIDIA 开发的基于 Llama 3 的模型，该模型在对话式问答（QA）和检索增强生成（RAG）方面表现出色。

模型同样分为 8b，和 70b 两个本版，用户根据喜好自行下载

ollama pull llama3-chatqa:8b

最近更新和修复

新功能

量化功能：现在，ollama create 命令支持在导入模型时使用 –quantize 或 -q 选项进行量化处理：

ollama create -f Modelfile --quantize q4_0 mymodel

注意

–quantize 选项在导入 float16 或 float32 模型时有效：

从二进制 GGUF 文件导入（例如 FROM ./model.gguf）
从库中导入模型（例如 FROM llama3:8b-instruct-fp16）

他们修复了一下一些bug

修复了关闭程序时无法清理推理子进程的问题。
解决了在多 GPU 系统上加载模型时遇到的一系列内存溢出问题
现在，Ctrl+J 键盘操作会在 ollama run 命令中正确地添加新行
修复了在运行 ollama show 命令查看视觉模型时出现的问题
向 Ollama API 发送 OPTIONS 请求不再会引发错误
修复了未能清理部分下载文件的问题
在生成停止响应时，响应中新增了一个 done_reason 字段，用以说明停止的原因
Ollama 现在能够更准确地评估在多 GPU 系统上可用的内存量，特别是在连续运行不同模型的情况下

有谁知道这个量化功能什么时候会用到吗，请在留言区留言