Vers le contenu

La puissance de l’algorithme pour estimer un bien immobilier

Dernière mise à jour: 11 septembre 2024

En cinq ans, grâce à l’intelligence artifi­cielle et au Machine Learning embarqués dans des algorithmes d’estimation, des progrès specta­cu­laires ont été accomplis pour évaluer avec une plus grande rapidité et précision les biens immobi­liers à l’achat et à la vente sur le terri­toire français.

La plupart des modèles algorith­miques d’estimation dans l’immobilier reposent sur la méthode hédoniste. Celle-ci part du principe que la valeur d’un bien sur le marché immobilier est constituée par la somme des prix impli­cites donnés à chacune de ses carac­té­ris­tiques (empla­cement, état du bâtiment, standard, année de construction, nombre de pièces, tranquillité, proximité du lieu de travail, nature, etc.). Le prix implicite mesure l’utilité positive ou négative de chaque attribut. La méthode hédoniste consiste ensuite à comparer ce bien immobilier avec une base de données.

Base de données

En l’occurrence, l’algorithme d’estimation de Wüest Partner exploite une base de données de 250 000 appar­te­ments et maisons vendus et en vente au cours des 12 derniers mois. Cette base de données est alimentée, en partie, par les « Demandes de valeurs foncières (DVF) » de la direction générale des finances publiques. Très complet, le jeu de données des DVF présente néanmoins deux défauts majeurs : une mise à jour semes­trielle et un descriptif des biens peu détaillé.  

La base de données est donc enrichie par les annonces du marché, actua­lisées quoti­dien­nement, provenant des nombreux portails et passe­relles de diffusion en ligne, ainsi que de parte­na­riats. Ces annonces contiennent davantage de carac­té­ris­tiques. Elles reflètent l’offre courante du marché, mais affichent un prix public de commer­cia­li­sation et non un prix final. Wüest Partner a pour y remédier développé un modèle permettant l’imputation et l’estimation des possibles négocia­tions ainsi que des frais d’agence.

Modèle d’esti­mation, basé sur le Machine Learning

Le modèle d’estimation, basé sur le Machine Learning, permet in fine de calculer un prix net vendeur. Dans le détail, pour construire un tel modèle prédictif de prix de transaction, une grande quantité de données est extraite, nettoyée, triée, agrégée. Des échan­tillons sont sélec­tionnés pour tester et apprendre. On introduit de l’élasticité sur les dimen­sions quanti­ta­tives connues, comme les prix et les surfaces, permettant de stabi­liser l’équation. L’analyse en compo­santes princi­pales permet ensuite de mesurer l’importance et le poids de chacun des facteurs tout en identi­fiant les corré­la­tions. Il s’agit ensuite de sélec­tionner les variables signi­fi­ca­tives, qui rendent compte de l’unité immobi­lière (macro-situation), d’informations quanti­ta­tives (surface habitable nette, super­ficie du terrain, année de construction), d’informations quali­ta­tives (GES, DPE) et d’autres rensei­gnant sur les commo­dités (place de station­nement, balcon, ascenseur, etc.).

A partir de ces variables, une équation de régression linéaire est construite. Le modèle est ensuite calibré. Le tout sous la super­vision d’une équipe d’ingénieurs et de data scien­tists.

Ce modèle n’est pas figé, il évolue constamment en fonction des événe­ments excep­tionnels, ou struc­turels qui orientent le marché. On sait, par exemple, qu’à l’approche de la rentrée scolaire, de nombreuses familles emménagent, ce qui provoque un rebond d’activité sur le marché. Il y a beaucoup plus d’acheteurs. C’est une pério­dicité qui sera lissée car ce rebond ne fait pas réellement état de la conjoncture. En revanche, un événement de plus long terme, comme le Covid, peut faire évoluer les prix de l’immobilier et l’impact de certains critères, comme d’avoir un jardin, un balcon ou une pièce supplé­men­taire.

Prix virtuels

Ce modèle d’estimation doit donc être rafraîchi réguliè­rement pour prendre en consi­dé­ration les nouvelles offres, les nouvelles transac­tions, les modifi­ca­tions struc­tu­relles. A noter qu’un autre algorithme se superpose à ce modèle pour intégrer l’évolution mensuelle des prix à la commune et des quartiers, et définir des prix virtuels (prix au m2 à l’échelle de la commune). Cette modéli­sation, selon une métho­do­logie statis­tique développée par Wüest Partner, intègre des facteurs socio-démographiques et écono­miques (comme la population, le revenu moyen, la fiscalité), des facteurs immobi­liers (comme le nombre de résidences secon­daires, le taux de maisons) spéci­fiques à la commune et l’état de l’offre et la demande du marché. Ces prix virtuels, qui font état des tendances de marché, sont utilisés pour calibrer et contrôler l’estimation.

Les principaux indica­teurs pour valider le modèle

En bout de course, on attend de ce modèle algorith­mique qu’il soit réaliste et fiable. Pour le vérifier, trois indica­teurs seront analysés : la précision (les erreurs doivent être inférieures à 20%), le biais et la médiane des estima­tions divisée par le prix (savoir si l’on surestime ou sous-estime un porte­feuille).

Les résultats obtenus par cette modéli­sation sont très satis­fai­sants et permettent d’estimer un prix de vente dans six confi­gu­ra­tions avec un niveau de précision de plus de 85% pour les appar­te­ments situés dans des zones à densité forte et modérée, et un niveau de précision compris entre 81 et 86% pour les maisons selon ces mêmes densités. Le degré de précision est légèrement plus bas, comme attendu, dans les zones à faible densité.

Cet outil d’estimation est dispo­nible pour les profes­sionnels de l’immobilier, en France, sous deux décli­naisons diffé­rentes, API et widget.