为传统工业注入生机活力,智慧运维在行动
来源:中国工业在线 点击: 2019-07-01 13:53

当传统工业遇上现代技术,如何平衡两者之间的关系,使之和谐共进,焕发更强生机?

项目背景:包头钢铁(集团)有限责任公司(以下简称:包钢)是我国成立后最早建设的钢铁工业基地之一,1954年开始建设,1959年投产。包钢拥有“包钢股份”和“包钢稀土”两个上市公司,是中国主要的钢轨及无缝钢管生产基地之一、华北地区最大的板材生产基地、是世界稀土工业的发端和最大的稀土科研、生产基地。

包钢始终致力于多元发展,并致力于建设“大包钢”,成为世界最大的稀土钢生产基地和最具竞争力的稀土生产、科研基地,年销售收入达到1000亿元以上。 

随着包头钢铁(集团)有限责任公司信息化建设的深入, 信息化运维监控管理在企业发展过程中担负起越来越重要的角色,企业利润来源也越来越依赖于信息化的建设水平,而企业信息化的建设水平取决于两个方面:

- 一方面是基础设施的搭建,这是硬件基础

- 另一方面是管理层面,就是如何将已有的硬件基础设施的效能更好的发挥出来,这就和运维管理水平的高低息息相关。

如何及时了解系统的运行状况,有效地降低系统运行的风险,主动的发现并及时解决系统运行故障,让业务系统保持7×24小时的健康、持续、稳定、高效运行,这些都给包钢的信息化运维管理水平提出了更高的要求,也是当前传统工业企业运维管理普遍面临的巨大挑战。

运维挑战

包钢集团 目前拥有网络设备、服务器、存储以及其他IT资源,在整个IT资源管理方面仍处于人工管理阶段,管理运维属于被动管理。

管理设备类型和数量

- 交换机主要为cisco和H3C交换机,共计需要管理80台。

- 操作系统主要有IBM AIX、CentOS、Windows等,共计需要管理35台。

- 数据库主要为IBM DB2、Oracle等,共计需要管理 25套。

- 中间件主要为websphere,需要管理10套。

- 应用主要为HTTP,需要管理10套。

- 存储设备主要为IBM、EMC,需要管理5台。

运维管理需求:网络管理

· 支持cisco、H3C等厂商的各型号设备,支持多厂商设备组成的混合网络自动发现,并且提供设备的真实面板,提供端口关闭与启用操作,可以更改VLAN ID

· 拓扑图的生成支持网络设备的SNMP V1、V2、V3这三个版本的混和生成,并能对SNMP V3设备进行管理

· 支持对全网的网络设备线路按照流量、带宽占用比、丢包率、错包率、广播包等指标的实时负载进行排名

· 支持网络设备的ARP表、MAC表、路由表等表格数据定期存储,差异自动比对,提供路由表历史快照对比。

· 提供任意IP类型对象的监控,支持ping状态、TCP端口状态、URL跳转方式实现该对象的基础管理;

· 拓扑图上的设备和线路支持按照性能参数的不同区间以红、黄、绿颜色进行显示,性能负载可自定义;

· 在拓扑图上可直接显示线路峰值流量、广播流量、组播流量信息;

· 提供网络设备可用率、线路连通率、网络设备负载分析报表、线路负载分析报表、网络告警统计报表等多套基于采集和管理数据生成的客观统计报表。

操作系统管理

· 支持对于Windows、IBM Aix、CentOS等类型操作系统的管理,支持对于CPU、内存、进程、日志、网络流量、磁盘性能的监控;支持对于CPU、内存、进程、日志、网络流量、磁盘性能的监控;

· 支持对主机进程列表的监控,支持定期备份进程表,支持进程表比对,进程状态告警。

· 支持主机趋势管理视图,包括CPU、内存、文件系统,流量指标的对比,磁盘容量可用时间的预测;

· 支持波浪图方式显示所有主机的全局信息,以图形化方式显示主机的常用管理参数;

· 支持系统拓扑图,一张图可以展现所有主机承载的数据库、中间件和标准应用之间的实时状态监控,为主机监控提供全景视图;

· 提供主机可用率、主机性能报表、系统告警统计报表等多套基于采集和管理数据生成的客观统计报表。

数据库管理

· 支持对Oracle、DB2等数据库的各项运行参数进行监控;支持对于各个数据库实时运行状态的实时统计,包含数据库会话数、死锁数实时排行,支持对表空间大小和会话数、缓存信息、锁信息进行重点监管;

· 支持在数据库发生异常时,进行所在主机、数据库关键指标的数据快照,便于事后便捷分析。

中间件管理

· 中间件管理支持对WebSphere 等中间件实时监控;支持图形化方式显示应用的承载主机状态和应用的基本性能信息,同时展示相关的运维负责人和联系方式。

标准应用管理

· 支持HTTP、HTTPS等应用的监控;支持图形化方式显示应用的承载主机状态和应用的基本性能信息,展示相关的运维负责人和联系方式。

存储管理

· 支持存储设备硬件管理,以统一的视图展现被管的各个硬件子项的运行详情,清晰展现各个管理设备的各类型管理状态,并以颜色显著标示出现问题的硬件类型;涉及到磁盘阵列的电源、电池、风扇、温度、磁盘、控制器等各个关键硬件信息;

· 支持存储空间使用全局视角,当前所有磁盘阵列设备已经使用空间的统计;当前哪个设备已配置的数据池,有足够的空间可以分给给业务主机使用,列出Pool已使用的排行;提供各个业务主机磁盘使用的增长规律和使用预测,便于事前做好扩容规划;

解决方案

基于自动化理念打造核心平台

BTSO以自动学习、自动分析、自动运维诠释智能运维的运维方法。自动学习:实现用户环境数据的学习,结合内置检测指标体系,建立具有用户特征的常态健康标准;自动分析:实时监控用户各项运维指标,结合指标变化特征,通过诸如单指标越界比例、多指标组合判断、历史趋势变化等方法自动判断数据异常情况,主动提醒;自动运维:提供处置方案的提醒,用户处置程序的调用等多种方案,实现异常问题的及时处理和运维。

系统智能化管理

传统系统监控的访问方式为告警,但是面对设备日趋完善,管理对象超过阈值的告警越来越少,如何实现信息化管理价值的最大化呢?这是摆在信息化管理管理主管面前的最大课题。北塔公司结合用户信息化管理实际情况,发现信息化管理价值最大化的方式有如下方面:

· 通过事前隐患智能分析,主动排除,即时通知,将故障发生概率降到最低;

· 对于部分故障实现自动化分析和处置,缩短故障处置周期,避免损失扩大化;

· 落实每个信息化管理主管的对于自身企业的个性化管理要求;BTSO适时推出了智能信息化管理管理,为用户落实如上3点诉求,提供管理功能。

智能运维管理

BTSO核心管理方式就是智能化管理,智能化的理论基础是北塔十几年的信息化管理经验和几千家用户的管理实践,为把这些管理方案推送到用户现场,BTSO提供了智能信息化管理模板。

智维模板按照管理等级,预置了不同管理对象的管理方案,方案包含如下技术点:

· 内置监测方案,包含采集指标的多寡,具体指标的采集周期、监测阈值,便于对系统自行巡检相关数据;

· 提供了预置告警规则给用户进行选择,用户可以根据业务管理实践的不同启用相应的告警管理规则;

· 提供常见管理报表,并生成高级别对象的管理报表。

通过上述智维模板,使软件无需复杂配置,安装就能对资源进行基础信息化管理。

实施效果

运维智能分析

BTSO自动对管理对象进行数据收集,用户进行数据对比分析,系统也提供智维分析的周统计,智能的挖掘系统的问题隐患。

提供本周系统运行概要信息:

· 目前管理的总数量,

· 本周运维巡检的次数

· 本周执行智能诊断的次数

· 本周生成的报表数量

提供各个管理类型的运维巡检情况:

· 本周运行健康趋势如何,如果问题增多则需要关注;

l   提供为什么问题增多的具体表现,

· 包含本周巡检问题最多的指标,以及问题最多的设备;

· 包含本周巡检问题最多的设备,以及这个设备的问题指标;      

提供各类重要类型的上周高低负载的数量;了解整体性能概况;

提供在告警处置上的效能评估,告警数量的变化以及平均解决时长的增长;

提供对于本周运行数据的分析判断,便于用户定位问题:

l   提供线路吞吐量的环比变化,帮助用户定位业务环比最大的线路;

l   提供windows主机吞吐量的变化,帮助用户定位业务环比最大的主机;、

l   提供主机磁盘增长Top,列出各个分区的增长情况,并预期可用时长,帮助用户进行定位需要调整控件的具体设备;

智能管理

对于工程师日常监控来说,故障管理是突发情况,而关键业务、指标的监控是常态管理要求,为了满足工程师对于重点应用质保的监控要求,系统提供了自定义首页功能,该功能提供基于角色的个性展示功能,用户可以自行选择不同管理重点指标以及展现方式,以便完成一图完成所有重点监控;

系统至少提供TOP表格、TOP柱状图、性能曲线图、单值图等多种展示方式;支持对于所有数值型数据的统一排序、历史记录展示;

结合日常管理需求。可以实现诸如骨干线路监控总图、关键应用监控视图的管理要素;

系统为展示要求提供数据支撑,能为自定义布局提供技术支撑,管理展现提供数据支撑。除了所以采集范围内的指标外,也应该支持通过sql、ssh、snmp等方式扩展业务指标的显示;

系统应该提供基于一个角色同时查看和配置多张视图的能力,每张视图可以新窗口打开,为用户日常监控展示提供便利性。

直观明了的网络管理

自动根据北塔特有的拓扑生成算法,快速搜索整个网络内的网络设备,智能分析网络拓扑结构,自动勾画出整个网络的真实物理拓扑图,真实反映整个网络的构成状况。BTSO 除拓扑生成之外,还支持拓扑添加功能,在保留原有拓扑图的基础上,搜索新的网络设备,并自动添加到网络拓扑图上。

网络拓扑图可从全局的角度出发,帮助信息化管理管理人员实时了解整个网络当前的运行状况,主动告诉用户关注点应在哪里,网络架构是否合理,有无网络瓶颈,设备和流量有无异常等,动态告诉用户可能的故障隐患,达到透明化、事前管理目的。

为了同时满足不同用户间的个性化需求,BTSO 提供了灵活的拓扑图复制功能,可为不同用户提供单独的展现页面。用户可以根据自己的偏好设置自己的个性化拓扑图,且不同的用户之间没有任何影响。

· 可以通过红、黄、绿等不同颜色表示网络设备和线路负载压力的评估状况,并可以调整设备和线路的变色阈值;

· 可以通过不同颜色的告警图标,显示各个网络设备的告警触发情况;

· 可以为拓扑图上的每台设备、每条线路设置中文名称,添加注释,方便进行管理。

提供背景图的更换设置功能,可自由选择精美的图片作为拓扑图的背景;

直观展示主机系统关联关系的系统拓扑

系统拓扑以主机为核心,展现了所有承载的数据库和中间件、标准应用之间的实时状态监控, 为主机监控提供全景视图;系统自动生成并智能布局,无需人工调整。

系统拓扑提供清晰的展现方式:提供网段不同颜色表示方式,不同主机按照其操作类型图标 显示,从主机出发关联数据库与主机的关系。

·  系统通过不同的颜色区分管理对象的实时性能层 级,BTSO 提供了主机经典性能指标,并以红、黄、 蓝代表其主机实时性能;提供根据业务需要性能负 载调整设置功能;提供主机关键性能指标的实时显示;

·  系统以闪烁的图标反映,重点提醒用户该资源发生 了告警;同时以弹出框显示告警的具体对象信息;

·  系统提供自定义拓扑方式,可通过对不同业务拓扑 主机的自定义归类,实现单独业务的聚焦关注。

·  拓扑图不仅反映单个设备的状态,同时提供关联数据排行,为问题定位增加信息参考:

·  提供以故障作为评价方式的综合评分,整体了解系统的整体运行健康情况;

·  提供主机 CPU 实时 TOPN 排行,分析主机性能最高的设备,便于用户重点监控;

·  提供主机连续运行时间 TOPN,分析主机异常开关系统的变化;

·  提供数据库会话数 TOPN,分析数据库实时运行状态。

同时提供主机一体化显示,按照不同的操作系统进行数据分类,系统提供基础信息、运行信息、进程管理、事件与告警、硬件信息等各类管理信息:

·  以关联方式显示主机上的承载数据库、中间件、标准应用的实时状态

· 图形化列出重点监控的硬件、日志、CPU性能、磁盘信息的实时信息

· 对于CPU性能、网卡等重要参数的最近3天数据分析

· 支持主机进程的实时展示分析

透明化、智能化、统一化的存储管理

基于北塔的管理平台,以空间、硬件、性能 3 个方面为管理抓手,为用户提供透明化、智能化、统一化管理,提高存储运维管理效率;系统支持磁盘阵列、 光纤交换机的管理, 支持 SAN/NAS等各种部署方式;

硬件状态管理作为基础管理部分,以统一的视图展现被管的各个硬件子项的运行详情,清晰展现各个管理设备的各类型管理状态,并以颜色显著标示出现问题的硬件类型;涉及到磁盘阵列的电源、电池、风扇、温度、磁盘、控制器等各个关键硬件信息;


编辑:古语

传统工业 智慧运维

参与讨论