为推进宁夏“互联网+教育”示范区建设,加强宁夏教育数据中心运行维护,保障信息系统和教育云平台稳定运行,提升平台服务水平,特制定本实施方案。
一、项目概述
宁夏教育数据中心由宁夏教育厅数据中心、云平台教育专属区域两部分构成,承载着宁夏教育云、教育部管理信息系统和教育厅各处室业务系统等 40 多套信息系统。为全面提升面向各级各类教育和社会公众的服务水平,强化专业技术力量来提供服务,维护、更新和管理两中心(教育厅数据中心、政务云教育云域)的基础环境、设施设备、网络和软件系统等,需要专业的服务团队保障各个系统及基础环境稳定正常的运转。
二、服务内容
2.1运维目标
保证宁夏教育数据中心承载的所有信息系统连续运行、稳定不中断;在规定的时限内配合完成信息系统的资源规划、部署、扩容、上线测试和迁移备份等工作;整合信息资产、工单和告警等管理系统,提升自动化管理和运维水平; 按月输出信息系统、资源管理、软件和网络配置等台账和报告;按季度梳理调优网络架构和资源部署情况,提高网络服务质量,优化资源使用率;按要求完成接口人交办的其他运维事项。
2.2运维期限
运维服务为期一年。
2.3运维范围
1.宁夏教育厅数据中心的所有基础环境、网络、服务器、存储、数据库、中间件、管理系统、虚拟化软件和其他设施设备的运行维护和管理;配合教育部管理信息系统的各项工作,与教育部共同完成一次数据灾备演练;开展一次机房应急演练;配合各类专项工作、整改和检查;负责两中心间的网络规划、实施和管理。
2.云平台教育专属区域的资源、网络、管理组、虚拟机、存储、数据库、中间件、负载、运维管理系统、云管平台、堡垒机等软件系统和设施设备的运行维护和管理;配合各类专项工作、整改和检查;配合接口人与政府和企业技术人员进行对接。
3.厅机关办公信息化运维保障。
2.4运维内容
日常运维服务(驻场服务)、硬件设备维保服务、基础软件系统维保服务、专项信息化规划及运维综合服务等。
三、运维服务
3.1日常维护
信息化系统软硬件日常维护是运维最普遍最重要的工作,包括日常巡检、故障处理和例行巡检。
主要包括以下三个方面:教育数据中心机房、云平台教育专属区域、厅机关办公信息化的软硬件系统维护。
对宁夏教育数据中心机房的所有设施设备开展巡检和日常维护,及时发现、记录和处置问题隐患,督促、管理和配合相关厂家上门维护,安装、上线和调试设施设备。每周汇总巡检和维护情况并形成报告,解决设施设备的运行故障及问题,保障设施设备(设备类型包含但不限于表一内容)正常运行。
3.1.1软硬件日常维护
宁夏教育数据中心信息系统支撑软硬件主要包括:服务器、存储、网络、安全设备及数据库软件、中间件及机房环境基础设施等。
3.1.1.1服务器维护
服务器主要包括数据中心机房目前在用的各类服务器:数据库服务器、应用服务器、WEB/备份服务器、门户网站服务器等。
具体服务内容包括:
(1)服务器硬件状态检查
(2)服务器硬件安装与调试
(3)服务器设备资产管理服务
要求运维团队根据服务器的运行情况制订相应的运维管理文档,由现场服务人员对服务器发生的事件进行记录、跟踪与分析,通过对运行情况进行分析, 及时发现服务器中存在的潜在问题,并提出相应的解决方案进行解决。
(4)服务器性能监控
要求运维团队每天根据制定的性能监测文档对服务器的性能主要参数进行监控,监控的参数:CPU、内存、硬盘和网络接口等,并根据各服务器的应用情况,分析服务器各项性能指标。
(5)服务器进程与服务检查
(6)服务器磁盘空间检查
(7)服务器系统漏洞修补
(8)系统配置与变更管理
(9)系统垃圾清理
(10)记录与报告
²服务器操作管理手册
²服务器事故管理文档
²服务器运行监控报告
²服务器故障处理报告
²服务器运维分析报告
²服务器系统配置记录
²垃圾信息清理记录
3.1.1.2存储设备维护
存储系统平台主要包括:SAN 存储系统(含 SAN 交换机)、磁盘阵列、磁带库等的管理和维护工作。
具体服务内容包括:
(1)存储设备配置管理服务
(2)备份作业检查
(3)SAN 交换机日常状态检查维护
(4)存储设备事件管理服务
(5)备份及恢复策略制定
(6)备份介质管理
(7)备份软件维护
(8)备份数据恢复
当系统出现异常数据丢失时,协同应用厂商,在信息中心的授权下,对相应的备份数据进行数据恢复,以快速保证与恢复客户的应用。
(9)备份数据整理
要求运维人员根据备份和存储数据的情况,提出数据整理频率计划,并按照计划进行执行,备份文档需形成数据记录。
(10)存储设备运行维护
要求运维人员对存储设备硬件状态监控,对发生问题进行及时处理。
(11)记录与报告
²存储设备操作管理手册
²设备检修报告
²故障处理报告
²存储设备运维分析报告
²数据备份操作管理手册
²数据备份记录
²存储系统配置记录
²存储系统空间调整记录
²备份策略调整更新记录
3.1.1.3网络安全设备维护
通过网络、安全系统管理服务,降低网络设备故障率,提高网络设备的运行性能。提高网络运行的稳定性、可靠性,以专业化运作模式解决各类网络安全问题。
需要提供故障诊断、远程支持、现场支持、网络优化、网络巡检、现场培训、技术交流、网络安全、网络规划建议等服务。
具体服务内容如下:
(1)网络故障排查
(2)设备状态检查
(3)网络流量监测
(4)安全策略配置及优化
(5)网络设备配置管理服务
(6)网络设备资料整理及调优
(7)网络使用状况趋势分析及建议
3.1.1.4数据库系统维护 其维护服务内容主要包括:
(1)检查数据库实例状态
(2)监测数据库表空间使用情况
(3)监测数据库的连接情况
(4)监测表空间使用情况和性能检查
(5)监测数据库告警日志检查分析
(6)检查数据库备份
(7)汇总数据备份记录
3.1.1.5中间件维护
中间件软件维护服务内容主要包括:
(1)数据维护
(2)数据备份
(3)系统日常维护
(4)适应性更新与调测服务
(5)中间件维护操作手册
(6)中间件应急流程更新
3.1.1.6机房环境设施维护
基础设施维护服务按照每三个月一次进行定期巡检。
巡检内容主要包括:
(1)供配电系统
u输入输出配电柜及线缆:测量输入输出开关、线缆载流量的实际值和 UPS 显示值的区别。线缆外观有无破损,线缆交叉的情况,连接点的温度是否正常;线缆是否存在局部过热, 通风是否良好。
(2)UPS 系统
u面板显示、案件、指示灯、风扇运行是否正常;
u设备内部电感、电解电容和功率线的外观检查;
u设备内部各功率部件及电路板信号线的物理连接检查;
u设备通风及散热是否良好、环境温度、设备有无水患可能;
u检查设备清洁程度,特别是设备内部的积尘及其他物质;
u每季度定期检测 UPS 输入线电压、输入频率、输入电流谐波成分、输入功率因数、效率、输出相电压、输出频率、输出火线-零线波形、蓄电池充电电流等参数,应符合相关国家要求(辅助厂家工程师完成巡检)。
(3)蓄电池
1、电池检查
u电池外观检查:外观是否变形、渗漏,安全阀周围有无液体;
u电池端柱是否有腐蚀、爬酸现象或有过热痕迹;
u电池槽和盖的损坏;
u电池绝缘检查;
u电池寿命:当电池达到使用年限时,提前通知用户;
u电池电压测量:检查充电电压是否和电池数量相匹配;
u电池端子连接是否稳固;
u定期进行电池表灰尘处理。
(2)
u测量和记录电池系统的直流浮充电压;
u测量电池端柱与接地间的直流电压;
u测量和记录取样电池的温度;
u测量和记录电池的浮充电压;
u测量和记录系统均衡充电电压;
(3)UPS 主机内部进行电池自检
u电池接触器闭合;
u电池处于浮充状态;
u整流、逆变通讯正常;
u电池状态正常;
u整流器工作正常;
u市电电压正常;
u逆变器正供电;
u负载功率大于指定的电池曲线设定的电池自检功率;
uUPS 不处于联合供电状态。
以上条件都满足时方可进行电池自检。
蓄电池的例行巡检工作须由厂家工程师进行,运维工程师辅助监测。巡检完成后需提交巡检报告,由接口人签字确认后归档。
(4)新风系统
1、制冷系统:
u检查压缩机工作声音是否正常;
u检查压缩机吸气排气压力是否正常:
u制冷管路阀门(液管、气管、压缩机吸入及排出口阀门)是否打开;
u热力膨胀阀开启是否正常;
u检查吸气管路、排气管路、回液管路和压缩机机体温度是否正常;
u干燥过滤器前后端有无温差;
u管路有否漏油痕迹;
u视液镜水分指示是否正常;
u蒸发器盘管是否脏污;
u冷凝器翅片是否脏污;
u检查冷凝器风机工作是否正常;
u检查冷凝器压力开关/风机调速设置是否正确;
2、送风系统:
u检查风机皮带轮和电机皮带轮的平面度;
u检查室内风机皮带张紧度;
u检查室内风机轴承工作是否正常;
u检查室内风机叶轮转动是否正常;
u检查室内风压开关、过滤网压差开关设定值是否正确;
u检查空气过滤网是否脏污;
u检查所有门板是否可靠;
u定期清洁风机。
3、电气系统
u定期检查加固所有接线端子;
u检查各交流接触器吸合、分断是否正常;
u检查所有过流保护是否正常;整定值是否正常;
u检查主电源线电压、相电压、各相电流;
u手动启动制冷/除湿、加热、加湿功能,检查电流是否正常;
4、控制系统:
u检查控制器初始设置是否正常;
u检查温湿度探头是否偏差;
u检查显示器工作是否正常;
u检查所有数据及模拟输入、输出是否正常;
5、加湿系统
u检查加湿器进水电磁阀和排水电磁阀动作;
u检查加湿器的蒸气排出管是否畅通;
u检查蒸汽凝结水排水是否正常;
u检查加湿罐结垢情况,清洗或更换;
u检查加湿器的进水过滤器;
u检查加湿器的溢水、排水盘;
u检查加湿器排水是否泄漏;
u检查冷凝排水是否泄漏;
6、管路系统
u检查制冷管道保温和包扎是否完好;
u检查所有管路定位是否完好;
u检查室内外机连接电缆老化情况是否能满足空调运行需要;
u检查空调送风和回风管路/通道是否通畅;
7、给水、排水系统
u检查给水系统是否正常;
u加湿进水电磁阀的进水过滤网是否脏堵;
u检查排水是否通畅。
新风系统的例行巡检工作须由厂家工程师进行,运维工程师辅助监测。最后出具维护报告,记录各项技术数据,并提出意见和建议,提供运行数据分析报告。报告需要客户签字认可。
(5)消防系统
1、防护分区环境的维护保养
检查保护区必要的出入通道应通畅无阻;各种报警信号和安全标志应清洁、齐全并醒目易见;采光照明和事故照明应完好;
2、灭火控制盘的维护保养
控制屏外观检查,是否有污浊、破损、变形等,检查内部接线端子上的线有无松脱,箱内有无异味,各部件工作温度是否正常,检查散热风扇是否正常工作,面板上各指示灯是否正常指示。
3、消防气瓶组维护保养
检查气瓶内气体是否泄漏,气瓶上的压力表的显示值是否在正常范围内。
4、火灾探测器的维护保养
检查火灾探测器(感温探测器、感烟探测器)及喷嘴进行外观检查,是否有污染、堵塞,有则清除消防系统专业性和合规性巡检要求较强。例行巡检工作须由厂家工程师进行,运维工程师辅助监测。最后出具维护报告,记录各项技术数据,并提出意见和建议,提供运行数据分析报告。报告需要客户签字认可。
3.1.2云平台教育专属区域维护
云平台教育专属区域的云主机、网络负载、管理组的日常监控、配置调优及性能评估等运行维护和管理。
3.1.3终端设备的日常维护
3.1.3.1电脑终端运维服务
主要包括厅机关办公人员的台式电脑、笔记本电脑及外设等。具体维护内容为:
(1)操作系统安装维护及补丁安装
u对终端用户的计算机的操作系统的安装与维护请求进行响应;
u对终端用户的计算机的操作系统的补丁安装;
u在重装前协助终端用户进行计算机数据的备份。
(2)终端防病毒软件安装及升级
u对计算机终端的防病毒软件故障进行现场处理与解决;
u对其他用户的防病毒软件进行电话技术支持与问题解决。
(3)终端网络接入调整
u对计算机终端的网络连接的调整。
(4)终端事件检查及排查
u对计算机终端进行故障定位与排查;
u对办公外设的故障事件进行故障定位与排查。
(5)通用办公软件安装
u提供对计算机终端的通用软件的安装;
u提供对计算机终端的客户需求软件的安装。
(6)计算机安装操作规范
计算机安装规范主要是对终端用户的计算机安装过程进行规范,规定相应的文件备份地点、分区大小、补丁安装、安全加固、软件安装等方面。通过制定相应的计算机安装操作规范,以规范与保证服务人员在服务过程中的服务质量。
(7)记录与报告
u计算机安全使用规范;
u计算机安装操作规范;
u故障维护服务确认单;
u电话支持记录单;
u故障处理报告。
3.1.3.2网络信息点位维护
(1)根据信息点的编号统一建立信息点统计表。
(2)各处室接入期间,做好配合工作,包括楼层交换机调试、桌面跳线等。
(3)要求运维人员做好定期对网络信息点、配线架、理线架、终端模块定期巡检,并对变更数据进行及时更新存档。
3.2运维规范
风险评估和安全加固工作贯穿于信息系统运维的各个流程。在日常运维及需求调整后,要不断地实施风险评估以识别系统面临的不断变化的风险和脆弱性,并通过安全加固进行有效的安全措施干预 ,确保安全目标得以实现。
3.2.1风险评估
风险评估的目的是了解和控制运行过程中的信息系统运维安全风险。评估内容包括对真实运行的设施设备、信息系统、资产、威胁、脆弱性等各方面。
(1)资产评估:对真实环境下较为细致的评估,包括实施阶段采购的软硬件资产、系统运行过程中生成的信息资产、相关的人员与服务等。本阶段资产识别是前期资产识别的补充与增加;
(2)威胁评估:真实环境中的威胁分析,应全面地评估威胁的可能性和影响程度。对非故意威胁产生安全事件的评估可以参照事故发生率;对故意威胁主要由评估人员就威胁的各个影响因素做出专业判断;同时考虑已有控制措施;
(3)脆弱性评估:全面的脆弱性评估。包括运行环境下物理、网络、系统、应用、安全保障设备、管理的脆弱性。对于管理脆弱性采取文档、记录核查进行验证;
(4)风险计算:根据相关标准,对主要资产的风险进行定性或定量的风险分析,描述不同资产的风险高低状况。
3.2.2安全加固
安全加固是指对在风险评估中发现的系统安全风险进行处理,按照级别不同,应该在相应时间内完成。安全加固的内容主要包括:
(1)日常安全加固工作,主要是根据风险评估结果进行安全设备及系统进行调优服务,根据系统运行需要适时调整各类设备及系统配置、合理规划系统资源、消除系统漏洞,提高系统稳定性和可靠性;
(2)进行安全设备的帐户策略、帐户锁定策略、审核策略、NTFS、用户权限分配、系统服务策略、补丁管理、事件日志、应用软件的更新。
3.2.3应急响应
应急状态的安全值守、响应工作,主要是系统应急响应、重大安全故障处理,确保系统出现安全事件时快速反应、及时处理,降低系统安全问题对内工作的影响。
3.2.4安全巡检
安全巡检主要是指深入现场,了解情况:质检服务内容中的各类安全设备, 了解安全设备运行情况,仔细观察各个安全节点的可靠性,并综合安全巡检情况,定制安全策略。
3.2.5安全监控
对服务内容进行监控,在安全环境产生变化时,及时更新安全策略,在现有设备和网络情况有改变的时候,快速制定,针对更新后设备环境的安全策略, 并实施部署。避免因设备变更而带来的安全风险。
3.3维修保养
针对本项目中的系统硬件设备,除提供的日常运维服务外,要求运维团队提供设备的维修及保养服务。主要包括:
(1)当硬件设备出现故障时,硬件设备故障部件的现场替换工作或返修工作,更换备件由对应产品厂家提供。具体如下:
(2)非故障时期对硬件设备的定期现场巡检、功能性能测试等日常保养工作。具体如下:
1.电源是否稳定;
2.散热是否正常;
3.检查服务器指示灯是否有故障灯亮起;
4.经申请批准后,定期用测试软件对服务器 CPU 性能进行压力测试并进行性能评估;
5.经申请批准后,定期用测试软件对服务器内存读取速度进行测试并进行性能评估;
6.经申请批准后,定期用测试软件对服务器硬盘 I/O 能力进行测试并进行性能评估;
检查出故障的按维修流程进行相应处理,无故障但是在性能测试中分数较低者,提出相应更换或者维修建议。
(3)要求运维团队每年定期对服务器进行三次除尘工作,既提高服务器的散热能力,也可避免由于微尘造成的服务器线路不通、性能降低或短路等危险。
3.4专项运维
3.4.1网络运行维护
维护宁夏教育专网骨干网、整体规划教育数据中心网络,建立网络调整和配置标准化流程,为信息系统分配或调整网络,开展定期巡检、日常维护和调优,掌握网络的带宽、延时和通断等情况。定期统计和记录网络流量、网络变更和网络使用情况,日常处理修复故障和问题,督促、协调和管理网络维护厂家或运营商解决网络问题,保障网络快速稳定。
3.4.1.1网络架构设计
分析现有网络现状,规划调优宁夏教育专网、宁夏教育数据中心和政务云整体网络架构,以适应高质量教育体系对网络的整体需求。
3.4.1.2网络更新
在现有网络基础上,提出优化和调整网络架构建议。逐步实现宁夏数据中心 IPv6 网络的改造。
3.4.1.3网络资源管理
给信息系统分配或调整 IP、域名、端口等网络资源。按周梳理和清理僵尸网络资源,回收已停用的公网 IP 地址等资源。
3.4.1.4网络策略与配置
梳理备份网络策略和配置,为信息系统制定网络放行策略并配置部署。
3.4.1.5网络调优
优化网络质量,不断提升宁夏教育云等信息系统的吞吐量和访问速率。
3.4.2软件系统维护
管理和维护操作系统、中间件、数据库、负载均衡软件、操作系统服务软件、运维管理软件等信息系统需要的底层支撑软件。及时掌握信息系统的运行情况,配合处理和升级底层支撑软件,提升信息系统的稳定性。督促、协调和管理信息系统开发厂家集中解决系统问题。定期输出信息系统运维的报告。
3.4.2.1模板创建和克隆
定制或创建信息系统所需的操作系统模板,并进行克隆分发。
3.4.2.2系统扩容与升级
定期评估业务系统的资源利用率,通知业务系统管理人员,按业务方要求对高利用率的系统进行资源扩容和升级。
3.4.2.3操作系统补丁升级
配合信息系统进行操作系统补丁升级工作。
3.4.2.4信息系统资源备份
配合信息系统进行主机系统的快照备份工作。
3.4.2.5软件系统定期巡检
利用运维软件对主机资源(虚拟机、操作系统、中间件、数据库、负载均衡软件、操作系统服务软件)定期巡检和维护。
*详情请见招标文件