Le démonstrateur « Bâtiment du futur » du Cesi a notamment été conçu pour expérimenter de nouvelles approches en matière de supervision de l’énergie. En quoi consistent ces recherches ?
Nous étudions les nouvelles technologies de l’information et de la communication en vue de réduire les consommations des édifices. L’apprentissage automatique ouvre en effet la voie à des procédés de contrôle des équipements plus efficace. Pour ce faire, le Cesi a constitué une équipe pluridisciplinaire. Elle rassemble des spécialistes de la performance énergétique, de l’informatique, et de la maquette numérique.
En mathématiques, comment décrit-on les rapports entre les occupants et la supervision du site ?
Nous nous appuyons sur une modélisation formelle qui se rapproche par certains aspects de la théorie des jeux, une branche des mathématiques qui étudient les comportements d’agents en situation de conflit. On peut voir le problème comme une partie avec deux joueurs : la gestion technique du bâtiment (GTB), qui souhaite réduire les consommations, et les occupants, qui se préoccupent de leur confort.
Chacun définit son comportement en fonction des coups de l’autre. Précisons bien que c’est une métaphore, le bâtiment ne considère pas l’individu comme un adversaire. Cette représentation du comportement de l’usager permet de prendre en compte la notion de confort.
"L’une des principales difficultés de la GTB réside dans le comportement des occupants"
Le logiciel doit donc choisir la meilleure stratégie pour aboutir à un équilibre entre confort et minimisation de la consommation énergétique. Quels algorithmes employez-vous à cette fin ?
Nous explorons les possibilités de l’apprentissage par renforcement profond (deep reinforcement learning en anglais). Cette approche combine deux méthodes. D’une part, l’apprentissage par renforcement (reinforcement learning), où l’ordinateur, par un processus d’essais et de récompenses, établit la meilleure stratégie à suivre ; d’autre part, l’apprentissage profond (deep learning), qui consiste à utiliser des réseaux de neurones pour traduire en récompenses les conséquences de chaque choix sur le système, mais aussi pour orienter plus efficacement la sélection de chaque stratégie.
Pourquoi recourir à l’apprentissage automatique ?
L’une des principales difficultés de la GTB réside dans le comportement des occupants. Sa modélisation se révèle particulièrement ardue. Propre à chacun, la notion de confort demeure difficile à traduire en grandeurs physiques. Si vous demandez à quelqu’un son intensité d’éclairage préférée, il aura du mal à vous répondre. Pour cette raison, on ne peut recourir directement à la théorie des jeux. Elle requiert en effet de pouvoir modéliser, donc de connaître, les stratégies de l'ensemble des joueurs.
Au contraire, l'apprentissage par renforcement est pensé pour réagir à des comportements inattendus de l'environnement, y compris des usagers. A priori, il n’est donc pas nécessaire de les modéliser. Avec cette forme d’algorithme, on peut imaginer un système informatique qui enregistrerait les réactions des utilisateurs à certains réglages et modifierait son fonctionnement en conséquence. Les limites de consommation existeraient toujours, mais elles seraient plus adaptées aux individus.
Comment se déroulent vos expérimentations ?
Dans un premier temps, nous travaillons sur l’éclairage. C’est le domaine le plus facile à prendre en main. Une action a des conséquences immédiates, contrairement à la thermique où il y a une inertie. De plus, le démonstrateur « Bâtiment du futur » accueille des cours. Nous ne pouvons pas tester toutes les actions possibles sans déranger les occupants. Mais on sait simuler un utilisateur simple et rationnel par informatique. Une fois que nous obtenons des résultats probants, nous lançons un test in situ afin de valider de manière plus réaliste nos algorithmes.