运行良好

该博客运行状态良好

陈少文的个人网站,关注 Golang、云原生等技术。

美国CloudFlare节点

该博客服务器位于: 美国CloudFlare节点

数据统计

收录文章

2024/08/27 Kubernetes 下的 DLRover 工作流程分析
2024/08/25 NVIDIA GPU 核心与架构演进史
2024/08/21 分布式训练中的数据并行架构
2024/08/17 使用 DLRover 托管作业进行弹性、容错训练
2024/08/14 开发了一个 Copilot 用来处理运维故障
2024/08/12 将 JuiceFS 元数据从 Redis 迁移到 PGSQL
2024/08/11 使用 Volcano 运行 hccl-test
2024/08/11 使用 Volcano 运行 nccl-test
2024/07/26 为什么 top node、free、Grafana 的数据对不上
2024/07/25 如何查看服务器上的设备信息
2024/07/23 模型研发过程中的存储系统建设思路
2024/06/12 MemoryFS 存储系统的一些构想
2024/06/11 使用 Fluid 对接 OSS 存储及性能测试
2024/06/09 如何预热 Juicefs 数据
2024/06/04 高频 IO 的 POD 并不适合设置 Limit
2024/05/29 部署基于内存存储的 Elasticsearch - 一亿+条数据,全文检索 100ms 响应
2024/05/26 模型研发周期中的数据存储
2024/05/25 各种存储对比
2024/05/22 使用 JuiceFS 存储 Elasticsearch 数据
2024/05/19 Fluid 挂载 S3 为 PVC 以及性能测试
2024/05/16 Fluid 使用 Lustre Runtime 以及性能测试
2024/05/04 Fluid 使用 NFS Runtime 以及性能测试
2024/05/01 对齐 Ops,使用新思路重写 Ops Copilot 已更新
2024/04/27 什么是 MLOps
2024/04/04 模型并行训练技术
2024/03/28 Conda 安装与使用
2024/03/28 常用 AI 基础镜像及启动命令
2024/03/27 Argo Events 事件驱动工作流
2024/03/24 Volcano 使用基础
2024/03/20 npu-smi 基本使用
2024/03/19 AI 芯片高速互连方案
2024/03/18 常用 GPU 运维及故障处理
2024/03/16 用了一个月,终于找到点写 AI Agent 的思路
2024/03/07 在 Kubernetes 下创建后端为 JuiceFS 的 PVC
2024/02/23 Argo 核心组件介绍
2024/02/14 Ops 新增 Server 及 UI 服务
2024/02/06 使用 TensorRT 加速模型推理
2024/02/05 kind 实用指南
2024/02/04 Kubernetes 集群中 AI 相关的采集器
2024/02/03 容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理
2024/02/03 容器下在 Triton Server 中使用 TensorRT-LLM 进行推理
2024/02/01 nvidia-smi 基本使用
2024/01/27 使用 Fluid 和 JuiceFS 在 Kubernetes 管理数据
2024/01/24 JuiceFS 社区版、企业版、Dragonfly 集成性能测试及对比
2024/01/23 健康检查耗尽 /run 存储空间,差点卷铺盖走人
2024/01/13 使用 Dragonfly V2 分发集群的镜像
2024/01/13 AI 基础设施之使用 Dragonfly V2 分发集群的镜像
2024/01/06 Nydus 懒加载镜像配置与实践
2024/01/06 AI 基础设施之 Nydus 懒加载镜像配置与实践
2024/01/01 增量不再,混沌当立
2023/12/28 NVIDIA GPU 驱动安装
2023/12/26 微信、公众号接入 GPT 服务
2023/12/23 大模型应用设计与实现指南
2023/12/16 混沌工程与落地实践
2023/12/08 在中小型公司做 SRE 是怎样一种体验
2023/12/07 我的 Restful API 规范
2023/12/03 OpenAI Vs Azure OpenAI API
2023/11/12 Istio 中的 EnvoyFilter 配置
2023/11/11 容器下的 Go 应用程序优化
2023/11/09 安装并初始化 PCI 接口的 SSD
2023/11/08 从 CPU 到网络记录一次排查应用慢的过程
2023/11/03 源码分析 Kubernetes 对 Pod IP 的管理
2023/10/11 FFmpeg 使用简易教程
2023/09/28 一些程序构建的优化技巧
2023/09/23 我在给 Ops 工具写 Copilot
2023/09/16 使用 CPU 推理 llama 结构的大模型
2023/09/05 大模型部署工具 llama.cpp
2023/09/04 有一定免费 GPT-4-32K 额度,需要的粉丝速速体验
2023/08/23 使用云上基础设施遇到的一些坑
2023/08/22 transformers 库的使用
2023/08/21 HuggingFace 的模型和数据操作
2023/08/20 Transformer 学习笔记
2023/08/19 影响使用大模型的技术因素
2023/08/18 AI 基础知识点
2023/08/16 使用 OpenAI 和 Langchain 通过对话直接调用函数
2023/08/12 使用 Upptime 无成本监控服务可用性
2023/08/04 使用 Apline 镜像常见问题
2023/07/06 流水线构建时,凭证作用域问题
2023/07/04 GitHub Copilot Chat 使用
2023/06/24 使用 Nodejs 代理 Https 请求到依赖的研发服务
2023/06/08 如何给 Kubernetes 应用设置 HPA 以及相关参数
2023/05/18 使用 KEDA 自动伸缩 Kubernetes 应用
2023/05/13 使用 Go 编写 WebAssembly 程序
2023/05/09 WebAssembly Serverless 飞入寻常百姓家
2023/04/26 Tekton 优化之定制集群调度器
2023/04/26 Tekton 优化之无限 IO 能力
2023/04/14 使用 Cloudflare Workers 在微信公众号集成 ChatGPT
2023/04/11 文档工具化 - Ops 工具
2023/02/23 动态代理 Envoy
2023/02/22 使用 tinygo 开发 Istio WasmPlugin
2023/02/22 网络性能测试工具 iperf
2023/02/21 Istio 注入 Sidecar 的几种方式
2023/02/21 Istio Gateway 下的几种流量配置路径
2023/02/17 使用事件总线改造运维体系
2023/02/16 优化 Tekton 执行克隆任务慢问题,节省约 30 秒
2023/02/11 使用 Falco 监听运行时安全
2023/02/10 如何在无 GPU 的 macOS 上运行 Stable Diffusion
2023/02/09 使用集群内 Prometheus 采集 Etcd 指标
2023/02/05 如何给 Kubernetes 服务添加 Basic 认证访问
2023/02/02 排查构建镜像时 IO 慢问题

随机链接

80后刑辩律师的办案手记。专注无罪辩护。反抗者的灵魂从未远去。

八十年代生于广西,名曰阿钧。我是一个在城市里长大的农村人,从小就经常游走于城市与农村的边缘,了解农村的落后,也懂得城市的喧嚣。小时候喜欢沉浸在自己的世界,长大以后开始关注周围的人与情!以前的梦想是当科学家,长大以后却成了科普者,很多东西,只是比周围的人懂一点,也仅仅只是懂一点!