全国大学生数学建模竞赛方法与技巧

前言

本随笔为数模国赛前的最后一堂课的笔记。有一些零零散散,但是信息量很大。如果有机会(现在是没必要啦),再整理成方便阅读的文字吧。


数据题

数据类题目获奖容易,拿国一难。同时选择该题的队伍数量较多,以2023年为例,三道题选择比例大约是A:B:C=1:3:9

做数据题,一开始需要注意做以下几件事:

  1. 统计描述(表格,最值众数mean std概率分布)和统计推断(图,点估计、区间估计),做完之后都需要加上一些规律性的结论分析。

  2. 统计推断(假设检验,正态假设的检验、Z、T、卡方检验)。

  3. 拟合与插值。

  4. 插值常用于异常值填充。注意方法的选择。

数据探索性分析

基本特征,预处理,统计分析,可视化,归整

特征降维(特征提取和特征选择,相关性分析,重要性排序)

模型选择(基本都要做多模型+模型对比)

训练集与测试集(如何划分?建议前:后=3:7而不是随机3:7

结果呈现(正确性很重要,越高越好)

简单的回归分析

  1. 为什么要用该模型
  2. 该模型的基本概念
  3. 参数估计
  4. 模型性能评价,如R2,F值,p值

线性回归、逐步回归、多项式回归、非线性回归。

方差分析、相关性分析

常用于分析因果,分析X对Y的因果,定性分析。(定量的话用回归)

ANOVA,MANOVA;线性相关性,非线性相关性,Perason,Spearman,Kendall,GRA,互信息(可用来算非线性相关性)。

需要写清楚:

  1. 为什么要用XXX模型
  2. 用ANOVA还是MANOVA,是否考虑交互作用
  3. 变量的水平划分

多元统计分析法

主成分分析、聚类分析、判别分析

PCA

只用来做降维,不要用作其他功能。将多个指标降成低维度的指标。还可以用于降维可视化

聚类方法

系统聚类,分层聚类,K-means聚类,无监督学习。

明确交代使用的距离和其他参数。

判别分析

距离判别,Fisher判别,Bayes判别,逐步判别,神经网络,DT

机器学习

Logistic回归,岭回归、Lasso回归,KNN,CART(已取代ID3和C4.5),BP,RBF,SVM,SVR,RF,XGboost,LightLGB,GBDT

需要明确:是分类问题还是回归问题?

带钢那题既可以是回归也可以是分17类,但一定要说清楚是分类还是回归

回归的评价指标

SSE,MES,RMSE,MAE,MAPE

分类的评价指标

TP FN FP TN,ROC,AUC,Acc,Recall,Precision,F1 Score

聚类的评价指标

外部评价指标:纯度Purity

内部评价指标:轮廓系数SC,CH

时间序列预测模型

自回归滑动平均:AR,MA,ARMA,ARIMA,SARIMA

广义自回归条件异方差:ARCH,GARCH,T-GARCH

长短期神经网络:LSTM

……

优化题

牢抓:建模和求解

建模三要素:决策变量,目标函数,约束条件

求解:软件直接解(Lingo/Matlab),智能优化算法(SA,GA,PSO),贪婪算法(智能优化算法解不出来的时候用),穷举法(用的少)

随机搜索和蒙特卡洛不能用于求解,只能用于检验

多目标规划问题解法

主要目标法:用的多,将次要目标转成约束

分层序列法:用的少。

加权求和法:也用的多。

论文写作步骤

  1. 算法步骤
  2. 流程图
  3. 参数
  4. 迭代过程(适应度随着迭代次数变化的折线/散点图)

注意事项

三昧真火

  • 真优化:建立真正的优化模型

目标函数和约束条件都是决策变量的函数或复合函数。式子具有自洽性,能够完整表达。

  • 真求解:求解真正的优化模型

真的能解的出来,有完整的求解步骤,不能是编的答案。

  • 求真解:验证解的可行性

解是否满足约束条件,是否为可行解。

机理题

大胆做

注意机理题和数据题的融合。能机理的就从机理角度出发,不要从数据角度。

赛中建议

  1. 清楚原理,明确过程,图示清晰展示
  2. 模型假设需要慎重
  3. 需要做大量的误差分析和灵敏度分析

论文写作

摘要

  1. 总述问题

  2. 模型、算法、结果。这三个加粗

  3. 评价与推广,灵敏度分析等

不要公式,不要图表,不要有“见表1”这样的字眼

问题重述

不要复制原题。注意查重

查重全文库和自建库均需\(\le20\%\)

重点注意:问题重述、算法描述和步骤、代码

解决查重

  • 问题重述:用自己的话写重述,少写重述
  • 算法:用自己的话说,步骤也自己写
  • 代码:尽量自己打,尽量多插入一些注释语句,或者不放附录

模型假设

一般把握不准的假设需要进行验证

符号说明

不要用英文单词

控制表格行间距(表格行高度)一样。

问题分析

概念解析,思路剖析,方法介绍,技术思路图。

模型求解

虚拟代码,流程图,参数设置(用一张表列出来)

模型评价

有就可以。

缺点少说,给一些确实无法克服的问题。

参考文献

正文中一定要标注对应的参考文献,不能虚假引用。

可以知乎百度文库。引用质量较高的文献。

附录

重要的结果数据应该在正文中列(而不放附录)。

论文中难以罗列的、详细的结果、数据表格可以放附录。

软件、版本、解决什么问题。

  1. 附录1
  2. 介绍:使用xxx,版本xxx,解决问题xxx中xxx
  3. 代码

排版工整紧凑。

彩色+线条形状区分,要使黑白彩色都清晰好看。

提交

提交PDF,文件名无所谓,上传上去会自动重命名

不要页眉不要目录。页码从第一页开始。

我的论文.pdf

支撑材料

压缩包内的任何位置都不能出现违规信息

注意文件(夹)命名,代码中的相对/绝对路径,不要出现名字/个人信息/队伍信息

全部放入我的支撑材料文件夹,然后压缩成单个RAR压缩包再上传。

20MB限制

提交MD5

检查PDF之后,最后再生成MD5

控制时间

8日中午12点前,完成论文初稿。

熬夜建议

  • 第一晚确定选题,适量加班(12-2点)

  • 9.6晚好好睡

  • 9.7晚别睡了

6-7日两日提供中餐和晚餐

8日午餐需预约