Search

Command Palette

Search for a command to run...

  • LLM

    Introduction to LLM Inference Benchmarking

    Provide a comprehensive analysis of the theoretical foundations and engineering practices of LLM inference benchmarking, including a comparison of mainstream open-source benchmarking frameworks.

  • LLM

    浅谈 LLM 推理基准测试

    全面分析了 LLM 推理基准测试的理论基础与工程实践,介绍了核心性能指标、主流开源基准测试工具及其对比,为生产环境中的 LLM 推理服务性能评估提供实用指南。

  • External

    “大模型”技术专栏 | 浅谈基于 Kubernetes 的 LLM 分布式推理框架架构:概览

    本文围绕基于 Kubernetes 的大语言模型分布式推理框架架构进行介绍,包括目前 Kubernetes 社区主流的分布式推理解决方案以及其集成的学术界的相关工作,旨在分享目前基于 Kubernetes 的主流解决方案所解决的问题以及未来可能的发展方向。

  • Kubernetes LLM

    Kubernetes-Based LLM Inference Architectures: An Overview

    As Large Language Models grow beyond single-machine capabilities, Kubernetes-based distributed inference has become essential for production deployments. This post explores the architecture of Kubernetes-based LLM inference frameworks, including features such as PD disaggregation, load balancing, KV cache management, and autoscaling.

  • MLOps

    基于 MLflow 插件机制实现定制化的实验跟踪

    通过对 MLflow 的 Autologging 功能的深入了解,以及以 Google Cloud 的 Vertex AI Experiments 为例,本文展示了如何基于 MLflow 的插件机制集成自定义的实验跟踪。

  • DevOps

    在 GitLab Runner 上使用 Kaniko 构建多架构镜像

    本文介绍如何在 GitLab Runner 环境中使用 Kaniko 构建多架构容器镜像,涵盖基于 Kaniko 的 DevOps 流水线配置,以及通过缓存机制优化构建效率的实践方案。

  • LLM

    在 LLaMA Factory 中使用自定义的 Training Callback 进行实验跟踪

    详细介绍如何在 LLaMA Factory 中基于 Transformers Trainer 实现自定义的 Training Callback,记录超参数、训练指标与GPU 使用情况,为 LLM 微调提供灵活的实验跟踪集成。

  • 年终总结

    年终总结 | 2024 年终总结:「变」

    2024 年终总结:「变」。

  • Astro

    将博客从 Hugo 迁移到 Astro

    本文介绍了将博客从 Hugo 迁移到 Astro 的过程中的一些想法与选型,包括如何基于 Astro 对 Markdown 的渲染进行扩展,以及如何使用 Giscus 与 Pagefind 等工具为站点提供额外的功能集成等。

  • Astro

    在 Astro 中集成 Mermaid

    本文介绍了如何基于 rehype-mermaid 插件为 Astro 提供 Mermaid 集成。