>> 当前位置:首页 > 首页栏目 > 电子期刊 >
第566期【TPM咨询】以安全可靠性为中心的设备运营维护管理 发布时间:2016-03-22        浏览:
 

        TPM咨询导读:以安全可靠性为中心的维修管理模式(英文为Safety&Reliability Centered Maintenance,简称SRCM),属于近年来的最具有代表性的设备维护管理模式。这一设备管理模式强调以设备的可靠性、设备安全后果,作为制定设备设施管理策略的主要依据。SRCM首先应对设备的事故后果进行结构性评价,分析并综合出一个保障安全、提升运行经济性和维修费用最优的整体管理策略。随着这些策略的不断落实和完善,可以实现企业效益的最大化。

 

        设备运行的安全性对企业的生存和发展是至关重要的,安全管理不仅对企业经济利益影响巨大,而且对社会、环境的影响也是不可估量的。因此,在ISO55000标准体系中,安全管理是资产管理的重要内容之一。明确规定:组织应确保其资产能提供所要求的产品或服务,实现组织目标。要进行风险分析和评估风险。总体目标是了解不良事件发生的原因、影响和可能性,将风险管理控制到可接受水平,为风险管理提供审核跟踪。确保资产管理体系能实现其目标,预防或减少不良影响,并能发现机遇,实现可持续的改进。

 

        还规定:组织应能够创造并阐释风险识别和应对措施与组织风险管理和业务连续性计划之间的关系。组织在资产管理体系中识别、分析和评估风险的方法应该妥当记录存档。资产管理体系中风险管理流程的文件应包括风险登记,或其他适合组织风险管理方法的记录。组织应在资产管理体系中建立风险管理的治理安排,包括风险管理方法审核,以及高层管理者的风险审查。

 

如何进行设备的安全评价?在ISO55002中也给出了明确的定义

首先要进行资产分类和范围定义,准备资产体系清单及他们的构成,收集相关信息,包括影响资产性能的管理和活动控制信息;定义个体资产风险评估的范围与界限。

其次,展开风险识别。创建一份潜在事件及其原因的名单,确保识别流程中包含了组织目标传递的风险。

第三,识别存在的风险控制活动(或资产计划和计划活动中提出的风险控制)。

第四,使用合适的流程分析风险。

第五,评估风险水平:基于资产管理决策标准和风险管理标准,评估每个可能事件的可能性与后果。任何现有风险控制的有效性和故障的可能性与后果,均应考虑在内

第六,随时评估风险水平:合适的时候,关注确定的风险是否会随着时间的变化而变化,将如何影响相应的后果。

第七,评估风险的耐受性:确定计划的或现有的控制活动(如果有)是否有效控制着风险,是否符合任何法律法令和其他资产管理要求。

第八,确定风险处理方式:确定是否直接解决处理,或避免、或降低、容忍或转化风险。

 

        如何理解设备的可靠性?可靠性是指:装置或系统在一定的条件下和在指定的时间内履行设计功能的能力。

 

        任何设备的可靠性都是有条件的,是有责任区间的,设备的可靠性首先是由设计决定的。我们希望设备在指定的时间内能够满足设定的目的,系统的能力能满足设计要求,装置或系统能够抵御故障的发生,不出现任何问题,这是我们的愿望。我们要对装置或系统履行设计功能的能力进行评估,判断其在指定的时间段和设定的条件下履行它的功能的可能性,还要判断设备抵御故障的能力,这就是可靠性工程。

 

可靠性工程有四个关键要素:

第一,可靠性是一种可能性,这意味着故障是一个随机现象,它经常发生,我们不能够描述单个故障的任何信息、故障原因、故障之间的关系等,仅仅知道故障发生的可能性随着时间在变化;

其次,设备可靠性是指设备保持所期望的功能,这意味着设备无故障的工作。

第三,应用于指定的时间,这意味着系统的无故障工作的时间。还要保证零件和材料满足使用期限的要求,单位是明确的。

第四,有限的使用条件。这一限制是必须的,没有设计是无条件的。火星车和家用车有不同的特定条件,设计和实验阶段也不同。

 

        如何判断设备的可靠性?反映系统可靠性的指标有:平均故障间隔,即MTTF(Mean Time To Failure)。在相同的工作时间内,故障次数少,就说明可靠性高。对可修理的系统,也可以用平均维修时间MTTR(Mean-Time-To-Repair)来评价。这没有统一的标准,取决于用户的需要。有些系统也称为信心间隔Confidence Intervals。

 

        系统的可靠性评价需要建立设备的可靠性评价模型,可靠性模型的种类很多,故障树模型是最简单的一种分析故障发生的逻辑关系的模型。如图1所示。

        可靠性分析一般从物理失效展开,按照故障树的逻辑关系逐步追溯到引发故障的根本原因。还要分析故障的分布状况,研究故障的分布规律。

        

可靠性分析一般按照以下步骤展开:

功能分析:在具体使用条件下,设备的功能标准是什么?

故障模式:什么情况下设备无法实现其功能?

故障原因:引起各功能故障的原因是什么?

故障影响:各故障发生时,会出现什么情况?

故障后果:故障在什么情况下至关重要?

主动故障预防:做什么工作才能预防各故障?

非主动故障预防:找不到适当的主动故障预防措施应怎么办?

还要对设备的故障进行结构性评价,这种评价的顺序是:

潜在的故障隐患。目前对设备无直接影响,而故障一旦发生后果严重;

安全故障。故障一旦发生,会损害人身健康或威胁生命安全;

运行故障。故障一旦发生,影响设备运行和修理的费用;

非运行故障。此故障一般不影响生产运行,但影响维修费用。

        

以可靠性为中心的维护策略的应用:

        以可靠性为中心的维修(RCM),从1978年提出这一概念,但当时仅用于设计阶段的寿命评价,80年代中期RCM用于飞机的维修分析,逐步发展成为一个维修策略。如今,RCM已成功应用到许多工程领域和工厂管理。一个典型的案例是:波音747飞机应用RCM原理进行维护管理,对飞机各种可能的出现的故障模型都进行分析,从而找到各种故障的合适的维修方法,到目前为止,30年销售了1100多架,如今都在服役,人们对它依然信赖。

 

        RCM是通过对设备磨损曲线和设备故障诊断技术进行了进一步的研究后发展出来的一种维修体系。关于故障的特性,RCM研究并总结出了图2的分布规律。这相对于早期的浴盆式故障曲线有了极大的进步,对设备的日常维护有积极的指导作用。

        RCM 还强调对设备的异常工况进行早期诊断和早期治疗,以设备状态为基准安排各种方式的计划维修,以达到最高的设备可利用率和最低的维修费用。其维修体系的发展大约经历了事后维修、预防性维修和预测性维修。RCM 在美国融合了更多的维修方式和诊断方法,尤其是对设备可靠性要求极高的发电厂和化工行业。

 

        通过RCM分析所得到的维修计划具有很强的针对性,避免了“多维修、多保养、多多益善”和“故障后再维修”,使维修工作更具科学性。如果RCM被正确运用到现行的维修中,在保证生产安全性和设备可靠性的条件下,可将日常维修工作量降低40%至70%,大大地提高了资产的使用率。RCM 的目标是达到总体成本的平衡点,使得可靠性投资所得到的回报为最高,他通过一组系统工作过程来达到这个目标。

 

        以安全可靠性为中心的维修策略(SRCM)就是借鉴RCM维修策略应用的成熟经验,融入资产风险管理的理念和管理流程,进一步强化设备的安全评价,风险识别,风险控制,持续改善的管理,使企业设备预防维护的体系更加可靠、高效。

 

SRCM维护管理模式的设计遵循以下工作流程:

        1. 目标设定:设备管理的目标是综合性的,设备管理的目标包含在企业的目标之中,是实现企业目标的基本保障。企业战略目标中必须对设备管理有明确的要求,离开了目标的指引,或者目标不清晰,设备管理必然会走弯路。

        具体设备运行的目标有:实现效率最大化;提升设备的可靠性;降低运营成本;消除故障;减少设备运行风险;减少废品损失。这六个方面相辅相成,构成一个整体,不可偏废。不适当的强调某一个方面会带来不必要的麻烦,如片面地强调降低成本,造成预防维护投入不足,会降低设备的可靠性水平,反而会增加成本。

 

        2. 预防管理体系优化(责任、流程、资源分配、能力培训管理);

        设备的预防维护体系必须是全员参与的。管理责任的明晰,管理流程的规范化,各种资源的有效应用,人才管理体系的有力支撑,是预防体系运行的基本条件。资产管理体系ISO55000的贯彻,设备管理体系TnPM的落地是建立企业设备预防维护体系的有效手段。按照TnPM的要求建立并逐步完善企业的设备自主维护管理、点检管理、设备润滑管理、检维修管理、员工成长管理等,与时俱进,实现企业设备管理逐步规范化、现代化,夯实管理的基础是设备安全、高效运行的必要条件。

 

        3. 系统的信息收集

        SRCM的应用从收集设备运行信息开始,常用的收集信息的方式有人工点检、离线监测、在线监测等,如图3所示。信息种类应包含设备的运行状态参数、设备的故障信息、设备维护保养的过程信息等。要保证信息精确、有效,信息收集的技术手段,工具要与时俱进,及时更新。比如油液分析,可以监测润滑油的污染物,判断设备的润滑特性。振动和超声波检查,可以提前预知润滑的恶化和不正常,提前采取必要的预防措施。振动、噪声监测,可以及时发现设备的不平衡、不对中、轴弯曲、轴偏心、磨损、安装不良、管路的气穴、紊流等问题。红外温度监测可以及时发现设备运行不正常产生的异常温升。有了设备运行的这些参数信息,技术人员可以进行有效的分析和制订合适的维护方案,预防故障的发生。

 
        

        4. 有效的故障分析

        对于收集到的故障信息,要进行有效的分析,掌握设备的真实状况,开展针对性的预防维护,这种根据设备的状态进行的预防维护,设备的运行效果和经济效果都是最理想的。如果仅仅是简单的定期预防维护,很难把握我们的周期与设备状况的同步,必然会造成不必要的资源浪费,有时还起不到预防故障的作用。

 

        设备故障信息的分析,可以从设备的功能定义入手,通过设备功能的分解和优化,必须的设备功能,一定要保证,有些多余的功能,可以不予考虑。如果能建立起设备维护工作和设备功能损失之间的联系,维护工作的针对性和效率会大大提高。功能分析与设构的结果密切相关,功能结构图也是故障树分析的有效工具。

 

        故障分析也可以按照设备缺陷的类别区分,如材料质量缺陷,包括劣质零部件、不适当的存储和传递方法;或者工艺缺陷,由落后的工序、缺乏训练和技艺达不到要求的员工造成;故障造成的缺陷,如轴承烧结造成周变形;设计缺陷,设备的设计不能满足现在的需要;操作缺陷,人的误操作或者机器的误动作。分析的技术方法很多,如逻辑分析方法、源头追溯方法。常用的分析工具有:劣化趋势图、鱼骨图、Why-Why分析、假设检验法、故障树分析法、故障字典、FMECA(Failure Mode Effects and Criticality Analysis)等。分析最好能做到定量化,计算机技术的应用(CMMS),大数据技术的应用,为这些分析提供了极大的便利。随着设备智能化水平的提高,监测仪器智能化水平的提高,我们对设备的状态信息收集和分析能力正在大幅度的提升。

 

        故障原因分析是SRCM推进最重要的步骤,也是目前企业的薄弱环节,在信息收集上,企业需要一定的技术和资金的投入,在故障原因的分析上,需要人员技术能力的不断提升,需要企业管理部门全方位的介入,需要企业人才培训体制的配套改革。

 

        5. 维护策略的持续优化

        推进SRCM策略的核心就是用SRCM的原理对现有的设备维护策略进行优化,优化的总体思路如图4 所示。即从实际问题出发,分析存在问题的原因,探索从根本上解决问题的方法,并在实践中验证。整体是一个闭环系统。只要建立起了闭环管理系统,就会形成良性循环。

 

        具体什么样的策略才是最合适的呢?图5给出了维修策略优化的具体指引。如:一些小项目,故障后果不严重,预防维护的成本大于故障的成本,我们就明确定义此类故障为事后维修,不安排预防措施,这就是费用优化。如果故障对安全、环境的影响巨大,这些故障也不好预防,则必须对设备进行改造和重新设计,以消除隐患。应大力推进预测维护技术的应用,积极引进状态监测工具,减少预防维护的盲目性,这是维护内容优化和工作量优化。还有设备功能的优化、人员安排的优化,工作计划的优化、工具的优化、管理流程的优化、技术文件的优化等,不一而足。


        例如:通过研讨设备、图纸、手册、系统程序、照片等;分析已知的或者大概的故障模式;评价每个故障模式的因果关系;确定每种故障模式的最可行的、最经济的维护策略(采用RCM逻辑);分组安排维护工作;批准和执行新的PM/PdM任务。在人员安排上,可设立可靠性工程师,协调设备可靠性的管理工作,使团队工作更有成效,效率更高。图6是事后维修项目确定的路线图。

 
        

        6. 持续改善的氛围营造

        SRCM维护策略的优化是一个持续的、长期的工作,它依赖于企业管理的基础,企业需要营造一个全员参与的持续改善的氛围,一步一个脚印向前推进。TnPM设备管理体系的推进,自主维护文化的扎根,有效激励机制的运行,良好的培训体系和评价体系的运行,是营造全员改善氛围的有效手段。我们需要可靠的状态维护,有效的缺陷消除,正向的文化改善。

 

        以建立可靠性文化为例,企业的高层管理者、中层管理者、基层管理人员和作业人员都需要任务明确、指标清晰,培训、考核到位,才能最大限度地发挥各方面的积极性,实现持续的改善。

 

        如:高层管理者的职责是:确定和贯彻方针、目标;确定和贯彻风险指标;确定管理战略;理解和规避最大的风险。中层管理的指标是:建立可靠的管理文化;实现可靠性目标;保障可靠性方针的落实;区别和应对环境的动态变化。可靠性经理的职责是:贯彻可靠性方针,并不断与时俱进;行动文件化;协调管理细节;编辑整理可靠性信息,向高层报告故障进展状况。可靠性专业人员的职责是:协助部门建立可靠性工作单;持续保持岗位人员的能力;支持源头分析和问题解决;按时解决问题。其他工作人员的职责是:理解、接受和执行可靠性工作流程;保持自己能胜任工作要求;报告无效的、多余的、不能实现的任务;识别和报告缺陷;参加跨部门的攻关小组;报告精确的分析结果;协调源头分析和问题解决工作。

 

        改善文化靠企业高层有效地转换他们的愿望到“更高的可靠性”。中层管理者具有可靠性管理的实操技能,他们能够有效地带动这些转变。基层管理人员能够深刻理解如何从反应快速性到设备的可靠性管理,明确这对他们有好处。

 

        如何转变观念?如何从快速反应到获得好的可靠性目标?这是企业管理必须首先要解决的问题。在企业文化导向上,如果片面追求降低成本,结果可靠性出问题,会不得不增加费用;如果追求高的设备可靠性,实现理想了的可靠性结果,设备维护的费用自然会降低。可靠性文化建设是员工转变观念,打造可靠性队伍的重要组成部分。

 

        7. 改善案例:

        某企业采用SRCM策略对重点机组的预防维护策略进行优化的实施步骤。

1) 确定试点机组设备范围;

2) 根据设备分类标准,确定设备分类;

3) 分析设备可能或已经发生的故障,确定其产生原因; 

4) 根据(潜在)故障原因,确定对策(维修项目);

5) 根据项目内容,按照维修模式判定标准,确定维修模式;

6) 对维修作业标准项目、点检标准进行修订完善。

 

        将1054个周期检修项目中的36%周期维修改为状态维修,提升了预防维护的针对性;2%的周期性维修项目改为事后维修,降低了生产成本;12%的维护周期进行了延长;1%的标准周期进行了缩短;涉及了对557个维修作业标准项目和357个点检标准的修订。通过这些优化,设备检维修的总工时降低了20%。取得了理想的效果。