近几年,由于政府、医疗、大型企业上云进程的发展,移动、电信、联通各 大运营商不断完善自己的云服务,来满足政府和企业越来越复杂的业务需求。随 着各级省市区政府政务和网站的上云,以及各大企业关键业务的云上运行,客户 对于上云业务的稳定性和流畅性提出了更高的要求,运营商的相关运维管理部门
(如:移动的网络部、网管中心、电信的网络运维部、企信部、联通系统运维部 等)在减少“故障率”和降低“投诉率”方面面临更大的挑战。
遇到的问题:
客户对上云业务(如:政务云、医疗云、企业云等)的稳定性和流畅性要求 极高,且业务环境及云环境非常复杂,一但问题产生,只能被动接受投诉,导致 运营商的“投诉率”居高不下。故障涉及如链路、网络延迟、重传、CPU、存储、 SDN、内存、操作系统等诸多因素,故障排查缺乏快速有效的工具,无法 改变“投诉率”过高的被动局面。
除了公有云业务,运营商信息系统部还负责内部私有云的运维,同时部分核 心业务依然在实体服务器上运行,这就造成了信息系统部需要面临“多云混合管 理,虚实性能监控”的挑战。由于内部网络包含了数据中心节点互联区、核心生 产区、管理网络区等多个区域,运维部门非常渴望能够实现“南北流量”和“东 西流量”的共同监控。同时也需要“虚拟网和实体网关联监测”,在出现问题时 能够做到实时记录和时间回溯。
引用某省运营商运维部主任的原话:我们需要搞清楚业务慢的原因。之前部 门经常被业务部投诉,有委屈也说不清,明明是应用本身的问题,也会归到我们运维工作没做到位。我们迫切需要一个真正能做到虚拟化故障定位和性能监控的
系统,会为我们的工作带来极大的价值。
需求:
需要全方位可视化性能监控体系
对于云管理者而言,没有可视化就没有有效的管理。无论是在数据中心还是 公共云或私有云中或混合云中,端到端可视化已变得非常重要。同时可视化也是 大数据分析的一种呈现,如不能构建和基础资源和业务应用的一一对应的关系, 管理将无从入手。里面需要涉及宿主机、虚机、存储、网络、服务路径、应用等 等;涵盖了 IPM>NPM>VPM>APM 多个领域。
需要一键式快速排查故障的手段
在出现问题时过度依赖经验和技能、部门协调耗费大量时间和人力,不能在 第一时间定位故障,缺乏快速界定故障层次、判定问题责任的有效依据,耽误了 MTTR 考核指标。
可用工具:明辰智航云安网络与虚拟化性能管理系统
产品采用虚拟化模版部署,集成了大数据分析引擎及高可用机制,避免了系 统故障时的恢复时间。采用高效率的存储架构,能实时响应并同时纪录历史数据; 方便任意时间段数据的读取。
✓不需要改变现有云平台架构,部署简易,避免实施风险
✓可以监控到虚机与虚机、虚机与实体机的东西、南北向数据
✓支持 SAAS 模式,租户可以直观看到自己资源和应用的真实情况。
使用效果
全栈式可视化性能监控
及时发现问题,找到性能瓶颈
1、 前瞻式的效能故障预判,像体检一样,可以在最终用户感受到影响之前发 现并解决问题。多次及时解决了甘肃移动、厦门电信 CPU 超配/低配,存 储效能下降所带来的相关业务效能下降的影响。
2、 强大的数据穿透分析能力,显示了某个时段性能下降的根本原因。使用根 本原因分析,一键分清了故障的边界、自动关联虚拟资源池与应用服务的 逻辑关系,提供直关展现。
优化资源配置节约投资
1.根据实际资源使用情况优化云资源使用成本,发现低效率或僵尸虚机,从而
减少浪费,为科学调优提供了真实的证据支撑。
2.直观看到配置不足的主机或虚机,从而避免资源不足导致应用效能问题。
自动发现服务依赖关系全景图
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。