当前位置: 首页 > article >正文

OpenAI 宕机思考|Kubernetes 复杂度带来的服务发现系统的风险和应对措施

12月11日,OpenAI 旗下 AI 聊天机器人平台 ChatGPT、视频生成工具 Sora 及其面向开发人员的 API 自太平洋时间下午 3 点左右起发生严重中断,耗费约三个小时才顺利恢复所有服务。 

OpenAI 在事后报告中写道,“该问题源自新部署的遥测服务,此项服务无意间压垮了 Kubernetes 控制平面,导致关键系统发生连锁故障。 引发事故的根本原因就是新的遥测服务配置意外在大规模集群中产生了大量 Kubernetes API 负载,导致控制平面不堪重负并破坏了基于 DNS 的服务发现能力。” 

可见,即使如实力强大的OpenAI,面对复杂Kubernetes架构,也不能很好处理Kubernetes服务发现和控制面解耦的问题。造成这个问题的关键原因在于容器调度和业务关键服务发现链路耦合在一起,互相干扰,Kubernetes控制面故障影响了业务服务发现链路。那么,Kubernetes体系下应如何选择服务发现系统,进一步提升业务稳定性呢?笔者认为,大型业务的服务发现系统应该具备高可靠性,高可伸缩性,高性能及高可维护性等特点,采用独立服务发现系统是一种相对较好的方案。本文以社区主流服务发现系统Nacos为例,从可靠性、可伸缩性、高性能、可维护性等4个方面探讨如何提升Kubernetes中微服务应用的稳定性。 

一、如何提升系统可靠性 

产品、系统在规定的条件下,规定的时间内,完成规定功能的能力称为可靠性。 


http://www.kler.cn/a/445047.html

相关文章:

  • PC寄存器(Program Counter Register) jvm
  • hive注释comment中文乱码解决
  • 【原生js案例】前端封装ajax请求及node连接 MySQL获取真实数据
  • Service Discovery in Microservices 客户端/服务端服务发现
  • 如何构建一个可信的联邦RAG系统。
  • Linux 中 epoll 的详解
  • 可编辑46PPT | AI+智能中台企业架构设计_重新定义制造
  • 【Springboot知识】Redis基础-springboot集成redis相关配置
  • 海量数据库使用操作
  • 管理图像标注工具labelimg的默认标签以提高标注效率
  • uniapp对接unipush 1.0 ios/android
  • C++Primer 注释简介
  • Django 提供的会话(Session)相关的设置说明
  • jenkins针对大文件进行拉取
  • flask before_request 请求拦截器返回无值则放行,有值则拦截
  • 【VUE】14、VUE项目如何自动识别服务端是否发布了新版本
  • Redis 突然变慢了如何排查并解决?
  • Spring Boot实现OAuth2.0登录实战
  • Flutter组件————BottomNavigationBar
  • vue2 - Day03 - (生命周期、组件、组件通信)
  • scala图书馆系统
  • ChatGPT生成接口测试用例(二)
  • mybatisPlus使用步骤详解
  • 安卓环境配置及打开新项目教程,2024年12月20日最新版
  • uniapp Native.js 调用安卓arr原生service
  • 《军工记忆》第二季播出,科技创新铸国之重器