本文通过OpenAI近期遭遇的重大服务中断事件作为案例,深入分析了Kubernetes (K8s) 架构在大规模集群环境下的稳定性挑战,以及阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性的。 作者: 阿里云容器服务团队:佳旭、行疾 阿里云可观测团队:凌竹、丹 ...
作者 | 作业帮大数据团队(刘泽强、孙建业) 本文主要分享 25 年 Flink on k8s 的探索与实践,包括选型思考、平台架构演进、日志观测、Flink 版本升级、兼容性适配、工具迁移、稳定性和性能优化等关键内容。 历史背景 作业帮实时计算主要基于 Flink 构建,共有 ...
11月4日,在腾讯数字生态大会上,腾讯宣布了云原生领域一项重磅开源进展—— K8s 多集群管理项目 Clusternet 正式开源。 Clusternet 由腾讯联合多点生活、QQ音乐、富途证券、微众银行、酷狗音乐、三七互娱等共同发起,专注 K8s 多集群管理和应用治理方向,希望让 ...
作者 | 作业帮大数据团队(刘泽强、孙建业) 作业帮实时计算主要基于 Flink 构建,共有 3000 多个任务,均采用 Per-Job 模式部署在 Yarn 集群,因 sla 要求差异不同部门间集群独立。历史 on Yarn 模式主要面对问题如下: 资源隔离粒度粗。Yarn 集群本质通过内存隔离 ...
随着云计算进入“云原生2.0”阶段,Kubernetes(K8s)已成为支撑现代云架构的核心系统。在这一背景下,网络功能不再局限于简单的数据传输,而是演变为支撑微服务协同、多集群管理及边缘计算的关键基础设施。面向2026年,掌握K8s网络核心技术并规划清晰的 ...