极智视界分享了多模态大模型中的动态高分辨率技术,该技术允许模型根据图像复杂度实时调整处理分辨率,以优化计算量。介绍了LLava-Next中的实现,包括切图和缩放两个分支,并展示了动态高分辨率的代码实现,涉及寻找最接近的宽高比和动态预处理。
极智视界分享了YOLO11目标检测算法的训练与TensorRT部署实战。项目基于coco_minitrain_10k数据集进行训练,使用py TensorRT加速推理。包括数据集整备、训练环境搭建、推理测试、开启训练和算法部署。部署过程涉及导出ONNX模型、安装TensorRT环境、生成trt模型引擎文件和执行trt推理。
在 OpenAI o1 的背景下,Q-learning 略显神秘,这里来解读。Q-learning 是一种基于值的强化学习算法,它旨在学习一个策略,使得智能体在环境中采取行动后,能够最大化累积的奖励。它通过估计状态-动作值函数(即 Q 函数)来实现这一目标。
从业务角度来说是反映模型的初始响应速度,对于实时交互式应用非常重要,较低的TTFT可以提高用户体验,使用户感觉模型响应迅速;从算法推理角度来说,其实主要是在掐大模型推理的 Prefill 时间,更加准确一些的是上图中的 Queueing Time + Prefill Latency 时间和。
GPTQ 的核心思想是通过最小化量化引入的输出误差,实现高精度低比特量化。具体来说,GPTQ 在后量化过程中,针对每一层的权重矩阵,利用一小部分校准数据,最小化量化前后模型输出的差异。
医学图像分割技术是借助先进的计算机视觉算法,针对医学影像数据进行智能识别与精确剪裁的核心手段,在医学诊断、治疗设计以及深入的图像分析等方面扮演着至关重要的作用。
NVIDIA GTC 2024大会重点介绍了新一代GPU架构Blackwell及其产品B100、B200。SXM架构相比PCIe在带宽和多GPU互联方面具优势,适合大模型AI计算中心。B200是两颗B100 Chiplet化,提升全方位,特别是显存容量达到192GB。Blackwell架构新增FP4和FP6精度,B200在算力上相对B100有全面提升,但非理想倍数增长,显示NVIDIA有所保留。
NVIDIA GTC 2024大会发布新一代GPU架构Blackwell,特点为MCM设计,集成2080亿晶体管,采用4NP TSMC工艺。Blackwell架构提供显著算力提升,低精度推理优化,以及高互联带宽,特别适合大模型训练和推理。新架构搭载产品包括B100、B200、GB200,未来RTX50系列也将采用。性能提升包括5倍AI性能,4倍显存,以及更高的显存带宽和NVLink速度。
极智视界分享了Groq LPU的特点,这是一款专注于生成式AI推理加速的近存计算AI芯片。Groq的LPU以其高推理效率和近存计算技术,特别适合处理大型语言模型(LLM)。