Search for a command to run...
Provide a comprehensive analysis of the theoretical foundations and engineering practices of LLM inference benchmarking, including a comparison of mainstream open-source benchmarking frameworks.
全面分析了 LLM 推理基准测试的理论基础与工程实践,介绍了核心性能指标、主流开源基准测试工具及其对比,为生产环境中的 LLM 推理服务性能评估提供实用指南。
本文围绕基于 Kubernetes 的大语言模型分布式推理框架架构进行介绍,包括目前 Kubernetes 社区主流的分布式推理解决方案以及其集成的学术界的相关工作,旨在分享目前基于 Kubernetes 的主流解决方案所解决的问题以及未来可能的发展方向。
As Large Language Models grow beyond single-machine capabilities, Kubernetes-based distributed inference has become essential for production deployments. This post explores the architecture of Kubernetes-based LLM inference frameworks, including features such as PD disaggregation, load balancing, KV cache management, and autoscaling.
通过对 MLflow 的 Autologging 功能的深入了解,以及以 Google Cloud 的 Vertex AI Experiments 为例,本文展示了如何基于 MLflow 的插件机制集成自定义的实验跟踪。
本文介绍如何在 GitLab Runner 环境中使用 Kaniko 构建多架构容器镜像,涵盖基于 Kaniko 的 DevOps 流水线配置,以及通过缓存机制优化构建效率的实践方案。
详细介绍如何在 LLaMA Factory 中基于 Transformers Trainer 实现自定义的 Training Callback,记录超参数、训练指标与GPU 使用情况,为 LLM 微调提供灵活的实验跟踪集成。
2024 年终总结:「变」。
本文介绍了将博客从 Hugo 迁移到 Astro 的过程中的一些想法与选型,包括如何基于 Astro 对 Markdown 的渲染进行扩展,以及如何使用 Giscus 与 Pagefind 等工具为站点提供额外的功能集成等。
本文介绍了如何基于 rehype-mermaid 插件为 Astro 提供 Mermaid 集成。