综合评价模型

综合评价问题的提出

历年竞赛中的综合评价问题

  • 2020全国赛C 中小微企业信贷策略
  • 2012全国赛A 葡萄酒的评价
  • 2010全国赛B 世博会影响力的定量评价
  • 2009全国赛B 眼科医院病床管理
  • 2011美赛C 全球使用电动汽车的前景

综合评价的问题与目的

要求对被评价对象进行的客观公正合理的全面评价。一般,需要对很多个同类对象进行评价,被评价的对象往往涉及多个属性/指标。需要根据系统的属性判断确定这些这些系统状况或者未来发展孰优孰劣,即按照优劣对被评价对象进行排序或者分类。这类问题又称为多属性(多指标)综合评价问题。

综合评价的五要素

  • 被评价对象
  • 评价指标体系
  • 权重系数
  • 综合评价函数
  • 评价者

被评价对象就是综合评价问题中所研究的对象,或称为系统。一个问题中的被评价对象是属于同一类的,多于1个。不妨设一个综合评价问题中有$n(n>1)$个被评价对象(或系统),可分别记为$S_1,S_2,\dots,S_n$。

评价指标是反应被评价对象的运行状况的基本要素。通常,问题都是由多项指标构成的,每一项指标都是从不同的侧面刻画系统所具有某种特征大小的一个度量。一个综合问题的评价指标可以用一个向量表示,其中每一个分量就是从一个侧面反应系统的状态,即称为综合评价指标体系。设评价指标体系有$m(m>1)$个评价指标,分别为$x_1,x_2,\dots,x_m$,则评价指标体系可记为$x=(x_1,x_2,\dots,x_m)^T$。

针对某个综合评价问题的评价目的,各评价指标之间的相对重要性是不同的。这种相对重要性大小可以用权重系数来刻画。一般用$\omegaj$来表示评价指标$x_1,x_2,\dots,x_m$的权重系数,且一般有$\omega_j\ge0(j=1,2,\dots,m),\sum{j=1}^m\omega_j=1$​。

评价函数(综合评价模型):通过建立合适的综合评价数学模型将多个评价指标中和为一个整体的综合评价指标,作为最后综合评价的依据。评价函数有线性的也有非线性的。

综合评价的步骤

  1. 明确评价问题和目的
  2. 构建评价指标体系
  3. 指标体系的数据处理
  4. 确定指标系统的权重系数
  5. 确定评价函数(综合评价模型)
  6. 求出综合评价值,完成评价任务

指标体系的构建与预处理

评价指标体系的构建

首先,评价指标体系应遵循系统性、科学性、可比性、可测性和独立性。

  • 系统性:指标体系是完备的,能够全面反应被评价对象。(可能数据难以得到?指标体完备是很重要的,完备了才能真实反应被评价对象的情况)
  • 科学性:指标体系所包含的各项指标是被业界所认可的,能够得到社会大众、评价者、被评价对象所公认的。
  • 可比性:指标再各被评价对象之间具有可比性。
  • 可测性:指标是可以观测、度量的,或者说可以量化的。
  • 独立性:指标之间具有较好的独立性,最好是互不相容的。(可以使用相关系数等判定一下是否独立)

评价指标类型的一致化

(同方向处理)

在评价指标$x_1\sim x_m(m>1)$中可能有多种类型的指标,比如“极大型”指标,“极小型”指标,“中间型”指标和“区间型”指标。

  • 极大型:越大越好。比如产值、效益、利润。
  • 极小型:越小越好。比如消耗、费用、污染物浓度。
  • 中间型:不要太大也不要太小,一般以某个中间值为好。比如饮用水的pH值。
  • 区间型:落在某一个指定的区间内为好。比如人体的体温。

在进行指标综合之前,需要对指标进行同方向处理,即一致化。

极小型指标转化为极大型

倒数法

其中$x$为原始的极小型指标,转化为极大型指标$x’$

平移变化法

其中$M$为$x$​可能取值的最大值$\max{x_i}$

将中间型指标转化为极大型

对于中间型指标$x$,其中$M$和$m$分别为指标$x$可能取得的最大值和最小值、$x$取中间值$\frac{M+m}2$最好,要将其转化为极大型指标:

得到的$x’\in[0,1]$,并且$x\to \frac{M+m}2$会使得$x’\to1$​。

将区间型指标转化为极大型

其中区间$[a,b]$是$x$取值的最佳区间,$c=\max{a-m,M-b}$,$M$和$m$分别为指标$x$可能取值的最大值与最小值

评价指标无量纲化

(规范化,标准化)

在实际中的评价指标之间,往往都存在着各自不同的单位和数量级,使得这些指标之间存在着不可公度性,这就为综合评价带来了困难,尤其是为综合评价指标建立和依据这个指标的大小排序产生不合理性。

如果不对这些指标作相应的无量纲处理,则在综合评价过程中就会出现“大数吃小数”的错误结果,从而导致最后得到错误的评价结论。

常用方法:标准差方法、极值差方法、功效系数方法和归一化方法等。

标准差法

假设有$m$个评价指标$x1,x_2,\dots,x_m$,且都有$n$组样本观测值,记作$x{ij}(i=1,2,\dots,n;j=1,2,\dots,m)$。

则使用标准差法

其中第$j$个评价指标的均值$\bar{x}j=\frac1n\sum{i=1}^nx{ij}$,第$j$个评价指标的方差$s_j=\sqrt{\frac1n\sum{i=1}^n(x_{ij}-\bar{x}_j)^2}$

由此转换之后的指标$x^\prime{ij}$为均值为0、均方差为1的无量纲值,称为$x{ij}$的标准化观测值。

极值差法(归一化方法)

其中

则$x_{ij}^\prime\in[0,1]$​为无量纲化(归一化)的指标观测量。

功效系数法

(相当于先归一化到$[0,1]$,再缩放平移)

其中$c,d$为确定的常数,可将$x{ij}$转化为无量纲化的指标观测值$x{ij}^\prime\in[c,c+d]$​。

举例:老师要将同学的分数拉到$[60,100]$这个区间,可以使用功效系数法

指标权重系数的处理

除了本文的综合评价模型,在组合模型中(将两个模型的打分用不同权重组合起来)确定权重系数也很重要,需要有依据。

权重系数

一般有$\omegaj\ge0(j=1,2,\dots,m)$且$\sum{j=1}^m\omega_j=1$​​。

定常权动态加权两种方式。

  • 定常权:各项指标权重为定值常数$\omegaj$,$\sum{j=1}^m\omega_j=1$。简单、易于理解,解释性强。
  • 动态加权:对于同一指标内部以及各指标之间存在数量和类别上的多重差异,考虑采用动态加权,将权重设置为动态加权函数,$\sum_{j=1}^m\omega_j(x_j)=1$。操作复杂,不常用。

权重系数的确定——主观赋权法

德尔菲法(专家咨询法)

略。

层次分析法AHP

后补。

相邻指标比较法

后补。

权重系数的确定——客观赋权法

变异信息构权

基于“指标的区分度越高,对排序的影响就越大”的观点,以区分度(方差等)信息量为权重。

均方差法:(用的多)

其中均方差$sj=\sqrt{\frac1n\sum{i=1}^n(x_{ij}-\bar{x}_j)^2}$

极差法

其中极差$dj=\max{1\le i,k\le n,i\not =k}{x{ij}-x{kj}}$​

相关信息构权

坎蒂雷赋权法。该方法认为,权重与合成值之间的相关系数应该是成比例的,各变量权重的高低应该由变量与合成值之间的相关程度来确定。即$x_j$的权数$\omega_j$是同$x_j$与最后的综合指标$Y$的相关系数成比例的。因此,一个与综合指标$Y$高度相关的评价指标应赋予一个较大的权数,反之应赋以较小权数。

坎蒂雷赋权

式子中,$R$为原始变量的相关系数矩阵, $S$为各变量标准差的对角矩阵。$\lambda$为$RS$的最大特征根。权向量$W$是$RS$的最大特征根所对应的特征向量,受标准差与相关系数共同影响。所以,$RS$​矩阵既包含了反映原始数据中各指标间的相互影响的信息,又包括了反映各指标的变异程度的信息。

熵信息构权

根据综合评价的数值所提供的信息量大小来确定权重。

设$x{ij}$已经经过归一化处理,即$x{ij}\in[0,1]$,则

第$j$​项的熵值:

$k>0$为常数,通常取$k=\frac1{\ln n},p{ij}=\frac{x{ij}}{\sum{i=1}^n x{ij}}$

第$j$项指标的变异系数:

第$j$​项指标的权重系数:

综合评价模型的建立

假设现在已经得到了$n$组观测值$x^{(i)}=(x{i1},x{i2},\dots,x_{im})^T$,也根据$m$个评价指标确定了相应的权重向量$\omega=(\omega_1,\omega_2,\dots,\omega_m)^T$,之后需要根据合适的数学方法构造综合评价函数

由此计算$y_i=f(\omega,x^{(i)})$,并按照$y_i$大小对这$n$​个评价对象进行排序或分类。

线性加权综合法

用线性加权函数

作为综合评价模型。

适用条件:各评价指标之间尽可能相互独立。对于不完全独立的情况采用该方法,结果可能导致各指标间信息重复,使评价结果不能客观反映实际。

特点:

  1. 该方法能使得各评价指标间作用得到线性补偿,保证综合评价指标的公平性。
  2. 该方法中权重系数对评价结果的影响明显,即权重较大指标值对综合指标作用较大。
  3. 该方法计算简便,可操作性强,便于推广使用。

非线性加权综合法

(用的少)

用非线性函数

作为综合评价模型。要求$x_j\ge1$。

适用条件:指标间具有较强关联的情况。

特点:

  1. 对数据要求较高,指标数值都要求要$\ge1$。
  2. 乘除法容易拉开评价档次,对较小数值的变动更敏感。
  3. 相对线性加权综合法,计算更复杂。

逼近理想点法(TOPSIS)

首先设定系统的一个理想样本点$(x1^\star,x_2^\star,\dots,x_m^\star)$,并对于每一个被评价对象$(x{i1},x{i2},\dots,x{im})$​与理想点进行比较。距离越近说明该样本越好。

定义上述两者之间的加权距离为

其中$\omegaj$为权重系数,$f(x{ij},xj^\star)$为$x{ij}$与$x_j^\star$​在某种意义下的距离。

通常可取简单的欧氏距离,$f(x{ij},x_j^\star)=(x{ij}-x_{i}^\star)$​;也可马氏距离、哈明距离等。

计算之后按照$y_i$的大小进行排序,值越小说明该方案越好。特别地,当某个$y_i=0$​,即达到了理想点,则说明对应方案是最优的。

模糊综合评价法

后补。

动态加权综合法

一般如果赛题想要作答得精致,都需要用动态加权综合法。

对于同一指标内部以及各指标之间存在数量和类别上的多重差异,考虑采用动态加权,将权重设置为动态加权函数,$\sum_{j=1}^m\omega_j(x_j)=1$。操作复杂,不常用。

  1. 将各评价指标作一致化、标准化处理。
  2. 根据各属性的特性构造动态加权函数$y=f(\omega(x),x)$。
  3. 构建问题的综合评价模型,并做出评价。

后补。

经典案例分析

2005A 长江水质评价

据国标(GB 3838——2020)的规定,关于地表水的水质可分为$\mathrm{I}$类、$\mathrm{II}$类、$\mathrm{III}$类、$\mathrm{IV}$类、$\mathrm{V}$类、劣$\mathrm{V}$​类共六个类别,每一个类别对每一顶指标都有相应的标准值(区间),只要有一项指标达到了高类别的标准就算是高类别的水质,所以实际中不同类别的水质有很大的差别,而且同一类别的水在污染物的含量上也有一定的差别

对17个城市的水质做综合评价,要充分考虑到这些指标值不同类别的“质的差异”和同类别水的“量的差异”(简称“质差”和“量差”)。

假设17个城市为被评价对象$S1,S_2,\dots,S{17}$,共有四项评价指标DO、CODMn、NH3-N、pH,记作$x_1,x_2,x_3,x_4$,前三项指标有6个等级$p_1,p_2,\dots,p_6$,相应 分来区间值如下表,而$pH\in[6,9]$没有等级之分。

指 标 I 类 II类 III类 IV类 V类 劣V类
溶解氧(DO) $[7.5, \infty)$ $[6,7.5)$ $[5,6)$ $[3,5)$ $[2,3)$ $[0,2]$
高锰酸盐指数 (CODMn) $(0,2]$ $(2,4]$ $(4,6]$ $(6,10]$ $(10,15]$ $(15, \infty)$
氨氮 (NH3-N) $(0,0.15]$ $(0.15,0.5]$ $(0.5,1]$ $(1,1.5]$ $(1.5,2]$ $(2, \infty)$

“只要有一项指标达到了高类别的标准就算是高类别的水质”:

比如说某种水按照DO、CODMn是第I类,但是NH3-N是第V类,那么这种水就会被归为第V类。

这导致“高类别”的水质往往差别很大。

数据标准化处理

DO是极大型指标,首先将数据指标作极小化处理,即令倒数变换$x^\prime_1=\frac1{x_1}$,相应的分类标准区间变为$\left(0, \frac{1}{7.5}\right]$,$\left(\frac{1}{7.5}, \frac{1}{6}\right]$,$\left(\frac{1}{6}, \frac{1}{5}\right]$,$\left(\frac{1}{5}, \frac{1}{3}\right]$,$\left(\frac{1}{3}, \frac{1}{2}\right]$,$\left(\frac{1}{2}, \infty\right)$。然后通过极差变换$x_1^{‘’}=\frac{x_1^\prime}{0.5}$将其数据标准化,对应的分类区间随之变为$\left(0, 0.2667\right]$,$\left(0.2667,0.3333\right]$,$\left(0.3333, 0.4\right]$,$\left(0.4, 0.6667\right]$,$\left(0.6667, 1\right]$,$\left(1, \infty\right)$。

CODMn是极小型指标,作极差变换$x_2^\prime=\frac{x_2}{15}$将其数据标准化,对应的分类区间随之变为$(0,0.1333)$,$(0.1333,0.2667]$,$(0.2667,0.4]$,$(0.4,0.6667]$,$(0.6667,1]$,$(1,\infty)$。

NH3-N是极小型指标,作极差变换$x_3^\prime=\frac
{x_3}{2}$,对应的分类区间随之变为$(0,0.075]$,$(0.075,0.25]$,$(0.25,0.5]$,$(0.5,0.75]$,$(0.75,1]$,$(1,\infty)$。

pH值是中间型指标,需要转化为极小型指标。通常的水生物都适应于中性水质(pH略大于7),不妨取正常值的中值$7.5$,偏离中间值越大说明水质越坏。故对所有pH值指标数据作均值差处理,即令$x_4^\prime=\frac{|x_4-7.5|}{1.5}=\frac23|x_4-7.5|$。

动态加权函数的确定

为什么要用动态加权?因为指标之间既质差又有量差。

取动态加权函数为偏大型正态分布函数,即

其中$\alpha_i$为指标$x_i$的I类水标准区间的中值,即$\alpha_i=\frac{(b_1^{(i)}-a_1^{(i)})}2$;$\sigma_i$由$\omega_i(a_4^{(i)})=0.9$解得。

求得$\alpha_1=0.1333$,$\alpha_2=0.0667$,$\alpha_3=0.0375$,$\sigma_1=0.1757$,$\sigma_2=0.2197$,$\sigma_3=0.3048$

为什么用这个,有没有其他的函数?一般使用分段函数即可,并且上述偏大型正态分布函数也是一个分段函数。

综合评价指标函数的确定

考虑到对实际评价效果影响差异较大的是前三项指标以及指标pH值的特殊性,取前三项指标的综合影响权值为0.8,而pH值的影响权值取0.2。因此,根据综合评价模型,某城市某一时间的水质综合评价指标定义为

最后可以得到这17个站点28个月的水质综合评价指标。我们将第$i$个站点的第$j$月的评价指标记作$X{i,j}$,得到了一个$17\times 28$阶的综合评价矩阵$(X{ij})_{17\times 28}$​。

各城市水质的综合评价

根据$X_{ij}$的大小进行排序,数值越大说明水质越差,得到了这17个城市的28个排序结果。

最后使用Borda函数法得到各城市的Borda数及总排序结果。

记在第$j$个排序方案中排在第$k$个被评价对象$S_k$后面的个数为$B_j(S_k)$,则被评价对象$S_k$的Borda数为

由此计算结果并排序,就可以得到$n$个被评价对象的综合评价结果,即总排序结果。