高效推理微服务
加速 AI 大规模部署

2024 年，企业在AI层面开始将重点从试验转向全面部署。这一转变涉及将 AI 模型融入现有的企业基础架构，并在此过程中优化系统的响应速度、处理能力，同时加强日志管理、监控和安全措施。这对于企业在开发人员专业技能、平台和流程等层面提出了极大挑战，特别是在扩大规模尤为突出。

值此关键转折点，NVIDIA NIM 和 NVIDIA AI Enterprise 应时而生，为企业构建 AI 支持的应用程序并在生产环境中部署 AI 模型提供了一条更为简洁的路径。

部署效率低下

传统上，大型 AI 模型的部署需要数周时间，这对于希望快速迭代和实现 AI 解决方案的企业来说是一个巨大的障碍。NIM 将部署时间从数周缩短到数分钟，极大地提高了部署效率，使企业能够迅速响应市场变化和业务需求。
复杂性和专业技能需求

大规模的 AI 生产部署涉及复杂的系统配置和高级技能需求，这对许多企业来说是一大挑战。NIM 通过提供预配置的微服务和抽象化的开发流程，简化了技术复杂性，减少了对专业知识的依赖，使更多开发人员能够参与 AI 项目。
资源整合问题

将 AI 模型与现有企业基础设施集成往往涉及复杂的系统调整和资源优化问题。NIM 的设计考虑到了企业现有的技术栈，支持无缝集成，同时优化性能指标如系统延迟和吞吐量，确保 AI 部署的高效与兼容性。
运维挑战

AI 系统的运行需要持续的监控、维护和安全保障。NIM 作为 Nvidia AI Enterprise 的一部分，提供了强大的运维工具和功能，简化了这些任务的管理，降低了维护成本和复杂性。
市场响应时间长

在竞争激烈的市场中，快速推出新产品和服务是企业成功的关键。NIM 通过加速 AI 模型的部署和迭代，帮助企业缩短产品的研发周期和上市时间，提高市场竞争力。

NVIDIA NIM 旨在弥合复杂的 AI 开发世界与企业环境的运营需求之间的鸿沟，以五大技术优势助力更多企业 AI 转型，将原本需要数周才能完成部署的大模型推理服务，缩短到数分钟。

跨平台部署

NIM 专为可移植性和控制而设计,可实现从本地工作站到云到本地数据中心的各种基础架构的模型部署。这包括 NVIDIA DGX、NVIDIA DGX Cloud、NVIDIA 认证系统、NVIDIA RTX 工作站和 PC。

包装有优化模型的预制容器和头盔图在不同的NVIDIA 硬件平台,云服务提供商和 Kubernetes 发行版中进行了严格验证和基准测试。这样可以在所有 NVIDIA 支持的环境中提供支持,并确保组织可以在任何地方部署其生成的 AI 应用程序,从而完全控制其应用程序和所处理的数据。
标准化 API

开发人员可以通过符合每个领域的行业标准的API访问AI模型,从而简化了AI应用程序的开发。这些API与生态系统内的标准部署过程兼容,使开发人员可以快速更新其AI应用程序—,而无需使用三行代码。这种无缝集成和易用性有助于在企业环境中快速部署和扩展AI解决方案。
定制化模型

NIM还通过关键功能解决了对特定领域解决方案和优化性能的需求。它打包了特定于域的NVIDIA CUDA库和针对各种域（例如语言,语音,视频处理,医疗保健等）量身定制的专用代码。这种方法可确保应用程序准确且与其特定用例相关。
优化推理引擎

NIM为每个模型和硬件设置利用优化的推理引擎,为加速基础架构提供最佳的延迟和吞吐量。这样可以减少推理工作量扩展时的运行成本,并改善最终用户的体验。除了支持优化的社区模型外,开发人员还可以通过将模型与专有数据源对齐和微调来达到更高的准确性和性能,这些专有数据源永远不会离开数据中心的边界。
支持企业级 AI

NIM是NVIDIA AI Enterprise的一部分,采用企业级基础容器构建,通过功能分支,严格的验证,具有服务级别协议的企业支持以及CVE的定期安全更新,为企业AI软件奠定了坚实的基础。全面的支持结构和优化功能强调了NIM作为在生产中部署高效,可扩展和定制的AI应用程序的关键工具的作用。

NIM 微服务通过使用 NVIDIA 推理软件支持的预构建容器，如 Triton 推断服务器(TM) 和 TensorRT(TM)-LLM，可将部署时间从原来的几周缩短到几分钟。

NVIDIA NIM 入门 “四步走”

在 NVIDIA API 目录, 访问可用于构建和部署自己的 AI 应用程序的各种 AI 模型。

使用图形用户界面直接在目录中开始原型制作，或免费与 API 直接交互。要在基础架构上部署微服务,只需注册即可 NVIDIA AI Enterprise 90 天评估许可证并遵循一下四个步骤。

从 NVIDIA NGC 下载要部署的模型。
将下载的工件解压缩到模型存储库中
使用所需的型号启动NIM容器
部署 NIM 后,可以使用标准 REST API 开始发出请求

此示例为单个A100 GPU构建的Llama-2 7B模型的版本。
```
ngc registry model download-version "ohlfw0olaadg/ea-participants/llama-2-7b:LLAMA-2-7B-4K-FP16-1-A100.24.01"
```
如果有不同的GPU,则可以使用ngc注册表模型列表列出该模型的可用版本：
```
ohlfw0olaadg/ea-participants/llama-2-7b:*
```

tar -xzf llama-2-7b_vLLAMA-2-7B-4K-FP16-1-A100.24.01/LLAMA-2-7B-4K-FP16-1-A100.24.01.tar.gz

docker run --gpus all --shm-size 1G -v $(pwd)/model-store:/model-store --net=host nvcr.io/ohlfw0olaadg/ea-participants/nemollm-inference-ms:24.01 nemollm_inference_ms --model llama-2-7b --num_gpus=1

import requests

endpoint = 'http://localhost:9999/v1/completions'

headers = {
    'accept': 'application/json',
    'Content-Type': 'application/json'
}

data = {
    'model': 'llama-2-7b',
    'prompt': "The capital of France is called",
    'max_tokens': 100,
    'temperature': 0.7,
    'n': 1,
    'stream': False,
    'stop': 'string',
    'frequency_penalty': 0.0
}

response = requests.post(endpoint, headers=headers, json=data)
print(response.json())

NVIDIA API目录

NVIDIA AI Enterprise 90天评估许可证

不久前的 GTC 上，NVIDIA 在 NIM 里选择提供了二十几个经过其为其 GPU和推理优化的大模型。包括 Nvidia 自己的、其他公司商用的和开放、开源的，文本的、语音的、图像的和多模态的，通用的和一些垂直领域的模型.

点击观看 GTC 视频

公有云服务商

NIM Containers在Amazon Sagemaker，Microsoft Azure和Google Kubernates Engine等主流云服务里。
大语言模型框架

NIM与Deepset.ai的Haystack，Langchain和LlamaIndex集成。通过这些框架，可实现易于使用、自定义、扩展、优化、评估并最终部署到生产中的可组合人工智能系统。
模型供应商

NIM中提供的模型，分别来自于Nvidia、A121、Adept、Cohere、Getty Images、Shutterstock、Google、Hugging Face、Meta、Microsoft、Mistral AI和Stability AI等公司。
数据平台供应商

Box、Cloudera、Cohesity、Datastax、Dropbox、NetApp和Snowflake等与NVIDIA微服务合作，帮助客户优化其RAG管道，并将其专有数据集成到生成的AI应用程序中。
基础设施软件平台

Nvidia AI企业微服务正在进入基础设施软件平台，包括VMware Private AI Foundation，红帽OpenShift，Canonical，帮助企业更轻松地将生成性人工智能功能集成到应用程序中，并优化安全性、合规性和控制功能。
AI和MLOps 合作伙伴

Nvidia由数百个AI和MLOps合作伙伴组成的生态系统，包括Abridge、Anyscale、Dataiku、DataRobot、Glean、H2O.ai、Securiti AI、Scale AI、OctoAI和Weights & Biases，通过NVIDIA AI Enterprise增加对NVIDIA微服务的支持。
向量数据库合作伙伴

Apache Lucene、Datastax、Faiss、Kinetica、Milvus、Redis和Weaviate是与Nvidia NeMo Retriever微服务合作的向量搜索提供商，为企业提供响应式RAG功能。
计算机制造和企业解决方案提供商

超过400个Nvidia认证系统也支持NVIDIA微服务，包括来自思科、戴尔技术、惠普企业（HPE）、惠普、联想和Supermicro的服务器和工作站，和用于生成AI的企业计算解决方案中。

高效推理微服务 加速 AI 大规模部署

NVIDIA NIM 入门 “四步走”

公有云服务商

大语言模型框架

模型供应商

数据平台供应商

基础设施软件平台

AI和MLOps 合作伙伴

向量数据库合作伙伴

计算机制造和企业解决方案提供商

高效推理微服务
加速 AI 大规模部署