基于数据驱动模型的建筑能耗数据分析方法研究-暖通空调网

清华大学建筑节能研究中心康旭源燕达孙红三晋远崔宏

【摘要】建筑能耗在中国总能耗中占有非常重要的比例，建筑节能工作对全国节能减排工作具有非常重要的意义。在建筑能耗分析的过程中，基于大数据的机器学习方法对于能耗数据的分析处理非常有效可行。当前国内外已经有很多针对数据挖掘算法在建筑能耗分析应用的研究，然而当前研究缺乏体系化的方法论研究，也缺乏成熟的应用工具。本文从数据驱动模型和算法出发，针对建筑能耗数据分析领域的实际工程应用和需求，提出一套完整的能耗数据分析框架，并通过算例分析和计算进行对比验证。最后，本文介绍了基于网站的建筑能耗数据分析软件平台。

【关键词】建筑能耗、数据驱动、平台、软件

Abstract: Building energy consumption is a key factor in energy saving and carbon emission control. With the advancement of smart meters as well as mass data storage and transfer techniques, the availability of building energy data is growing rapidly. Thus, data mining methods are becoming possible and effective in the analysis of building energy consumption. Current studies have already dug into this method in both residential and commercial building aspects. However, a systematic approach remains to be established to apply data mining methods in building energy sector, and a utility software is essentially required for engineering. This research attempts to set up a framework of data mining analysis in building energy sector by: (1) applying machine learning algorithms in load predictions, clustering and categorizing, (2) defining standard input and output data format, and (3) introducing generalized validation metrics. The article concludes with a web-based utility software - Building Energy Data Analyzer.

Key words: Building energy consumption; Data-driven; Software platform

1 研究背景

随着社会不断的进步发展和城镇化水平的不断提高，中国的建筑面积呈现高速增长的姿态。建筑规模的持续增长，驱动了能源消耗的增长，截至2015年，我国建筑总面积达到了573亿m²，2015年建筑运行总商品能耗高达8.64亿tce，约占全国能源消费总量的20%^[1]，建筑能源问题已经成为社会可持续发展进程中的核心问题之一。科学分析和准确预测建筑能耗特征，是指导建筑节能方案分析和政策制定的基础。

目前针对建筑能耗的分析主要有两种方法：物理建模和数据驱动。物理建模方法又称白箱模型（White-box Models），主要基于热力学对建筑和设备系统进行详细的建筑热过程建模和模拟计算，得到能耗并进行相应的分析。这种方法在过去几十年的时间里进行了充分的研究和论证，并且拥有成熟的商业软件，如Energy Plus、DeST、eQuest等。但是这种方法需要详细且精确的建筑热物理参数、建筑环境参数、人员及设备作息、系统及设备信息以及气象数据，这些数据在一些情况下难易完整精确地获得。同时，基于物理模型的建模模拟需要模拟者充分的专业知识、娴熟的模拟分析技能，以及丰富的工程应用经验。这些对于一般的建筑设计、运营和管理人员来讲很难完成。

第二种方法，即数据驱动的方法，则是基于已有的大量的历史监测数据，通过数学统计和深度学习的方法，提取数据特征进行能耗数据的分析和预测。这种方法是伴随着机器学习算法的快速发展应运而生的，是一种新兴的数据分析方法。这种方法并不需要建构复杂的物理模型，而是基于历史监测数据和统计参数进行数据特征的解构和提取。在当前传感器和检测仪表的普及下，这些大量的监测统计数据很容易获取。同时，这种数据分析的方法对专业知识的要求并不高，因此一般的技术人员就可以完成^[2]。这些优势和特点，给数据驱动方法在建筑能耗数据分析中的应用带来了很多的可能性。目前机器学习的算法研究非常广泛，人工神经网络、支持向量机、决策树等算法的研究，都为数据驱动的研究方法提供了丰富的算法支撑。

Kwok, S^[3]等人应用PENN(Probabilistic Entropy-based Neutral Network)算法建立起了一套针对办公建筑的冷量预测模型。他们将逐时室外气象参数、有人房间面积和新风机组功率作为输入参数，训练PENN模型，进行冷负荷的预测，并且以香港一座大型写字楼为案例进行验证计算，预测误差控制在了20%以内。Yuan, J^[4]等人应用基于高斯过程的贝叶斯概率模型，对既有建筑的性能参数进行概率估计。这些估计基于对现有建筑参数数据的测试和统计，根据目标建筑的一些指标（如能耗）给出参数的估计值及概率密度分布。针对新加坡的一个算例结果显示，应用贝叶斯概率模型进行参数估计，其参数误差从20.8%降到了6.5%，估计精度大大提升。

还有诸多基于大数据的建筑能耗数据研究，分别针对冷量预测、聚类分析、分类识别和参数估计等[5-9]。目前基于数据驱动的数学算法的开发也已经相对成熟，应用数据驱动方法进行建筑能耗分析的研究也已经取得了一些进展。然而目前相关的研究相对离散，没有标准化的输入输出，缺乏完整的体系和框架。并且当前缺乏可供非专业人员使用的成熟的标准化平台工具。

本研究针对数据驱动方法，建构了建筑能耗数据分析平台的基本框架和标准体系，并针对数据分析的具体需求，开发了相应的计算模块，通过具体算例验证算法有效性，最后提出了基于网页的数据分析软件平台工具。

2 研究内容

进行建筑能耗数据分析方法体系和框架研究的技术路线，首先从需求分析开始。针对当前实际工程对建筑能耗数据分析的应用点，将需求划分为3类：负荷预测、聚类分析、分类识别。对应三类需求，我们分别匹配对应的算法寻找解决方案。在需求-算法匹配的基础上，针对每一类需求形成标准检验方法，确定标准的准确性描述指标。然后根据需求确定数据的标准输入输出格式。最后基于网页实现平台化软件工具。研究的技术路线图如下：

图2-1建筑能耗数据分析方法技术路线图

2.1 负荷预测

负荷预测是基于历史监测数据及参数对未来一段时间的能耗进行预测，是当前工程运行中普遍存在的需求。其中冷量预测对指导冷机启停变频、系统综合控制具有重要意义，而电量预测对电力输配及峰谷平衡调配也具有十分重要的意义。

负荷预测本质上是基于对周期性特征的提取以及与其他参数和相关关系构建。因此机器学习的算法诸如人工神经网络、支持向量机等可以很好地学习这些特征并加以应用。当前进行冷量预测的核心在于对输入变量的选取和处理的方法，自变量特征的描述方法不同，如加入“建筑中有人房间的面积”这一自变量，对拟合结果具有非常显著的影响^[3]。而类似的自变量参数的丰富性，决定了负荷预测方案的丰富性。

检验负荷预测效果的指标相应地也有很多，如预测绝对平均误差（MAE）、预测均方误差（MSE）、预测对数均方误差（MSLE）、可释方差得分（EVS）、绝对中值误差（MedAE）、拟合优度（R2）等。这些检验指标可以用于描述历史数据的拟合精度。如果预测数据有对应的真实监测值，则同样可以用来对比预测精度。

对于负荷预测模型，其输入应当是逐时的自变量（温度、在室人数等）和因变量（能耗）值。而需要提取的特征是自变量和因变量的关系，所以应当输入自变量向量和因变量向量，来描述特征关系F：

Y=F(X₁,X₂,X₃,…,X_n)

同时为了预测，还应有预测自变量向量X´。因此输入变量的应当是历史自变量向量（如温度向量等），历史因变量向量Y（如能耗向量）和预测自变量向量X_i´，特征关系F即是通过机器学习算法建立的对应关系。而输出则包含两部分：预测因变量向量Y´和检验指标。这就是标准输入输出的定义。

图2-2负荷预测模块框架

2.2 聚类分析

聚类分析是对一组数据点（一维或多维）按照一定的特征进行分组聚类。这种方法用于提取群体的典型特征及其分布，在人行为研究和典型建筑特性分析中有非常广泛的应用。其具体的应用目的随对象与需求不同而有很大差异，如用能模式聚类^[6]、建筑能效聚类^[10]、节能潜力聚类^[11]等。但其使用的模型都是一致的，即通过一定的算法找到给定数量的聚类中心，使得类间“距离”尽量大，类内“距离”尽量小。因而其模型相对单一，所用聚类的算法也相对固定，典型的聚类算法包括K-means聚类和层次聚类等。

评价聚类效果的指标有很多，如轮廓系数（Silhouette Coefficient）、Calinski-Harabaz Index用于评价非监督学习聚类的效果，而兰德指数（Rand Index）、互信息（Mutual Information based scores）、同质性（Homogeneity）、完整性、V指数以及Fowlkes-Mallows指数则用于评价监督学习聚类的效果。

对于聚类，其输入即需要聚类的n维向量。而输出可以分为两部分，一部分是聚类结果，包含聚类中心和各样本所属类；另一部分是聚类评价指标，描述聚类效果的参数和因子。在这样的标准框架下，聚类模块的标准输入输入参数即如上定义。

图2-3 聚类分析模块框架

2.3 分类识别

分类识别是根据给定的类别，将样本归属予以划分的一种数据分析模式，在人行为模式的归类识别、电器模式识别等领域均有应用。分类识别在物理模型上与聚类很相似，但在数学模型上与负荷预测更为接近，分类识别可以理解为拟合预测的“离散化”，即预测的变量为离散的“类”，而非连续变量。

目前分类器算法很多，与拟合预测算法同源。基本算法包括邻近算法（Nearest Neighbor）、支持向量机（Support Vector Machine）、高斯过程（Gaussian Process）、决策树（Decision Tree）、随机森林（Random Forest）等。这些算法已经在图像识别等领域有了非常广泛的应用。

不同于连续变量，离散变量识别预测有其独特的检验指标。主要的检验指标包括：准确率（Accuracy score）、召回率（Recall score）、F1评分（F1 score）、混淆矩阵（Confusion Matrix）、分类报告以及ROC曲线。这些检验指标从不同的角度评价了分类识别的效果，具体应用时则需要根据目的选择相应指标。

从模型结构的角度，分类识别与负荷预测具有很高的相似度，因而其标准输入输出格式具有高度的一致性：历史自变量向量、历史因变量向量、预测自变量向量作为输入。输出变量略为不同的是，除了给出预测因变量向量，还应给出预测概率分布向量，即描述预测为该类的概率值。同时同样应输出如上检验指标。

图2-4分类识别模块框架

3 实例分析

我们以冷量预测为例，进行能耗数据分析的验证。冷量预测所选取的案例为青岛万达广场2015年9月3日-13日共11天的冷量监测数据，并将数据划分为30分钟间隔的数据点，每一个数据点包含三项参数：室外空干球温度t、冷机作息参数（0、1表示冷机关闭与开启）φ和冷量值（kW）。我们利用这组数据，按照前7天的冷量数据预测并验证第八天的冷量数据，循环递进并检验，完成全部数据的预测。

预测完成后，首先进行拟合检验。拟合误差定义为由模型拟合训练样本的拟合值与真实值的相对误差，定义式如下：

拟合的结果如下图所示，图下表格表示逐日拟合的平均相对误差。从图线及数据中可以看出，拟合误差在10%左右。经统计，相对误差小于30%的小时数占比93.75%

图3-1冷量数据拟合结果图

表3-1 冷量拟合日平均相对误差

再对数据进行预测检验。预测误差定义为由模型预测值与真实值的相对误差，定义式如下：

冷量预测结果如下图所示。图下表格表示逐日预测相对误差。可以看出，预测的误差也相对较小，且基本能够准确预测趋势和尖峰，整体预测相对误差在15%左右。经统计，预测相对误差小于30%的小时数占比92.71%。

图3-2 冷量数据预测结果图

表3-2 冷量预测日平均相对误差

通过预测指标同样可以判断预测效果。下表列举了本案例所应用的几项检验指标。绝对平均误差141.4kW，均方根误差246.5kW，绝对中值误差54.4kW，相对于平均能耗水平1007.5kW而言，其误差较小，尤其是绝对中值误差远小于绝对平均误差，反映了大部分能耗预测误差都处于相对较小的水平。而可释方差得分0.941，非常接近1，预测结果较好地反映了实际能耗的特征及变化趋势。因此，可以认为拟合精度较高。

表3-3 冷量预测检验性指标

4 研究成果

基于以上框架，我们开发了基于网页的建筑能耗数据分析软件。软件基于Python语言，应用Django库构建网站服务器框架，应用numpy、scipy、scikit learn库实现算法开发^[12]，应用matplotlib库完成图形绘制。软件平台的基本架构如下图所示：

图4-1基于网站的软件平台基本构架

其中，服务器依照Django框架进行构建，主要分为三个模块：配置模块，定义时区、网址格式等；用户模块，定义网站用户注册、登录、管理系统；计算模块，定义网站数据分析项目创建、算法模块调用以及结果文件输出下载等功能。服务器后台基本架构如下图所示：

图4-2 服务器后台基本架构

其中，用于数据分析的计算程序均为独立的计算模块，既可以通过软件平台进行计算，也可以作为独立模块被调用计算。每一个独立模块均具备标准格式：调用模块的preprocessor方法可以对数据进行预处理（如标准化等）；solver方法可以对数据进行分析计算；postprocessor方法对数据后处理（主要进行数据检验）；run方法则完成预处理、计算和后处理所有步骤。

软件平台基于网页端的交互设计，主要分为5个环节。第一步，功能选择，创建项目名称并选择功能（负荷预测、聚类分析、分类识别等）；第二步，算法选择，选择实现功能的算法模块；第三步，参数设置，根据算法要求输入相应参数；第四步，上传数据，将原数据按照标准模版格式上传至服务器；第五步，查看结果，在用户管理台界面查询相应的项目状态以及下载结果文件。

5 总结

本研究基于文献综述和工程调研，从实际的工程需求出发，建构了基于数据驱动模型的建筑能耗数据分析体系，挖掘了适应于不同需求的机器学习算法，并根据特点确定了标准检验指标和标准输入输出格式，形成了一套完备的数据分析体系。

在建筑能耗数据分析方法研究的基础上，我们开发了建筑能耗数据分析平台软件，该软件工具构建了数据分析平台框架，实现了负荷预测、聚类分析和分类识别的数据分析功能，提供了一个实用工程工具。

本研究为数据挖掘方法在建筑能耗分析中的应用提供了体系化、标准化、模块化的参考方案，但对具体应用的算法优化仍存在提升空间，需要进一步研究丰富算法库的内容，提升算法库的计算精度。

参考文献：

[1] 清华大学建筑节能研究中心. 中国建筑节能年度发展研究报告2015[M]. 北京: 中国建筑工业出版社, 2015.
[2] Amasyali, K., & El-Gohary, N. M. (2018). A review of data-driven building energy consumption prediction studies. Renewable and Sustainable Energy Reviews, 81, 1192-1205.
[3] Kwok, S. S., & Lee, E. W. (2011). A study of the importance of occupancy to building cooling load in prediction by intelligent approach. Energy Conversion and Management, 52(7), 2555-2564.
[4] Yuan, J., Nian, V., & Su, B. (2017). A Meta Model Based Bayesian Approach for Building Energy Models Calibration. Energy Procedia, 143, 161-166.
[5] Deb, C., & Lee, S. E. (2018). Determining key variables influencing energy consumption in office buildings through cluster analysis of pre-and post-retrofit building data. Energy and Buildings, 159, 228-245.
[6] Zakovorotnyi, A., & Seerig, A. (2017). Building energy data analysis by clustering measured daily profiles. Energy Procedia, 122, 583-588.
[7] Lindelöf, D. (2017). Bayesian estimation of a building's base temperature for the calculation of heating degree-days. Energy and Buildings, 134, 154-161.
[8] Edwards, R. E., New, J., & Parker, L. E. (2012). Predicting future hourly residential electrical consumption: A machine learning case study. Energy and Buildings, 49, 591-603.
[9] Jain, R. K., Smith, K. M., Culligan, P. J., & Taylor, J. E. (2014). Forecasting energy consumption of multi-family residential buildings using support vector regression: Investigating the impact of temporal and spatial monitoring granularity on performance accuracy. Applied Energy, 123, 168-178.
[10] Vigna, Ilaria & Pernetti, Roberta & Pasut, Wilmer & Lollini, Roberto. (2018). New domain for promoting energy efficiency: Energy Flexible Building Cluster. Sustainable Cities and Society. 38. 526 - 533. 10.1016/j.scs.2018.01.038.
[11] Deb, C., & Lee, S. E. (2018). Determining key variables influencing energy consumption in office buildings through cluster analysis of pre-and post-retrofit building data. Energy and Buildings, 159, 228-245.
[12] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., ... & Vanderplas, J. (2011). Scikit-learn: Machine learning in Python. Journal of machine learning research, 12(Oct), 2825-2830.

备注：本文收录于第21届暖通空调制冷学术年会（2018年10月23～27日，中国·三门峡）论文集。版权归论文作者所有,任何形式转载请联系作者。

• ENVI-met在居住小区微气候模拟中的应用研究	• 地铁联络渡线处隧道通风系统的模拟分析
• 近零能耗居住建筑能耗预测模型研究	• 住宅用多联机使用人行为的大数据分析
• 大尺寸平板太阳能集热器集热效率模拟研究	• 基于NASA&EnergyPlus气象参数上海户式太阳
• 热舒适与空气品质铁路旅客站房高大空间冬季热环	• 基于多节点模型实际大空间下送下回分层空调垂直
• 不同高效空气过滤元件测试台效率及阻力传递比对	• 基于人行为模型的住宅小区冷负荷模拟方法研究

对流式和辐射式电暖器	夏热冬冷地区间歇供暖
利用能源微网多能互补	U型深埋管换热系统岩
区域供冷系统节能研究	分布式供热输配系统理

地表水源热泵多排螺旋	基于CFD模拟的回字形
寒冷地区热环境参数对	基于NASA&EnergyP
基于跨季节蓄热的太阳	接触角滞后对超疏水翅