Données et méthodes

Cette section présente la source de données AirDNA utilisée pour construire ce site. Elle en expose les principaux avantages et limites, précise les pré-traitements effectués pour en améliorer la qualité et l’enrichir. Un focus méthodologique est ajouté pour expliquer la méthode de cartographie par potentiels dans ses grandes lignes.

A la source : la base AirDNA

Objectifs et principales caractéristiques

AirDNA est une entreprise spécialisée dans la vente de données Airbnb et d’analyses sur l’activité de la plateforme, les deux entreprises étant a priori juridiquement indépendantes (même si le site d’AirDNA fait état de “relations fortes et mutuelles”). L’objectif pour AirDNA est de mettre la “veille commerciale directement entre les mains des petits entrepreneurs, leur permettant ainsi de prendre des décisions mieux informées orientées données sur un marché de plus en plus concurrentiel”. Secondairement, les publics ciblés sont des collectivités territoriales et des communautés de chercheurs intéressés par l’accès à des données coûteuses mais proposant une vaste couverture territoriale de l’information.

Depuis 2014, AirDNA a mis en ligne un site web qui accompagne la professionnalisation des hôtes Airbnb, en commercialisant les données et en les analysant pour alimenter les stratégies d’investissement des hôtes Airbnb et améliorer leurs performances commerciales. Sur ce site « vitrine », une requête à la commune affiche la carte des hébergements localisés à l’adresse ainsi qu’un ensemble de chiffres clé et graphiques mettant l’accent sur la performance de l’activité à la commune (part des nuitées disponibles ayant été réservées, revenus générés, etc.). Les données commercialisées (à hauteur d’environ 1000 euros par commune, pour obtenir l’historique des fichiers mensuels) permettent quant à elles de disposer dans le temps (agrégation mensuelle) et dans l’espace (localisation géographique) des offres de location décrites par de nombreux attributs qui renseignent non seulement sur les caractéristiques des hébergements (logement entier ou chambre individuelle, capacité d’accueil, prix d’une nuitée, identifiants de l’hôte…) mais aussi sur l’activité de la location (disponibilité, nombre et durée des réservations, revenus générés, …). AirDNA est la plateforme dominante sur ce créneau mais d’autres initiatives se développent afin de capter une part de la valeur des données Airbnb, en proposant d’autres interfaces d’accès à l’information.

Un des apports notables des données AirDNA est qu’elles sont relevées en continu à l’échelle mondiale, à partir d’un protocole de collecte harmonisé : elles offrent ainsi une couverture spatiale relativement complète, avec un historique de plusieurs années (depuis 2014), de manière a priori comparable d’un lieu à l’autre et dans le temps. D’autre part, elles se prêtent à des analyses spatio-temporelles fines (suivi à un pas de temps mensuel, à un niveau d’observation spatiale quasiment à l’adresse), tout en étant assez riches d’un point de vue thématique : activité des locations (revenus engendrés, nuitées réservées, disponibles, etc) et de leurs caractéristiques (prix, équipements, durée minimale des séjours, etc).

Méthodologie

La méthodologie suivie par AirDNA est décrite dans la page AirDNA Data: How it Works. Elle permet de comprendre le processus général d’acquisition et de consolidation de la donnée, mais comporte aussi de nombreuses zones d’ombre :

  • La collecte des données relatives à l’ensemble des biens immobiliers répertoriés sur Airbnb et Vrbo/HomeAway s’effectue via webscraping sur plus de 10 millions d’annonces (avril 2023).

  • Dans un second temps, des “algorithmes” (non documentés) permettent d’une part de distinguer les doublons entre les deux sites, d’autre part de détecter les réservations en se basant sur le calendrier des logements.

  • Validation : l’équivalent de 10% du total des données serait collecté auprès de partenaires (professionnels immobiliers ou propriétaires individuels) pour vérifier les concordances entre les estimations de AirDNA et les observations de terrain sur les logements. Peu d’informations sur la localisation et les caractéristiques de ces partenaires ne sont connues.

Des limites méthodologiques notables

Outre le processus de collecte de données peu documenté, les données AirDNA sont imprécises sur plusieurs aspects. Cela peut contribuer à altérer la qualité et la précision des résultats proposés. Ces limitations sont connues et identifiées dans la littérature :

  1. Localisation des logements : Airbnb déforme légèrement les données de localisation en longitude/latitude pour protéger la confidentialité des utilisateurs. On observera en conséquence sur plusieurs représentations proposées dans ce site Web que certaines annonces sont situées dans des espaces incongrus (parcs, voies ferrés, etc.). L’observation des attributs associés aux annonces (commune d’appartenance, zones de concentration d’annonces) suggère néanmoins que cette imprécision doit se situer à quelques dizaines de mètres.

  2. Des indicateurs sujets à caution : du fait des techniques de scraping utilisées, des spécificités du logement (modification de la capacité d’accueil par l’hôte), de leur activité (distinction des réservations réelles et des annulations), plusieurs indicateurs proposés par AirDNA doivent être maniés avec précaution. Cela concerne notamment les mesures de l’activité (Briquet-Laugier et al. 2021), qui tendent à minimiser l’offre disponible et gonfler les taux d’occupation et les capacités d’accueil.

  3. Une méthodologie évolutive peu documentée : il n’y a pas d’assurance que les données archivées soient mises à jour au fur et à mesure des améliorations des algorithmes de traitement. AirDNA précise que leurs équipes travaillent quotidiennement à l’amélioration de leurs données. On peut donc s’interroger sur la cohérence de la comparaison des données de 2014 à celles de 2020, compte tenu du fait qu’en 6 ans, il est plus que probable que plusieurs changements d’algorithme aient été opérés (Perilleux, Retout, et Decroly 2021). Le codage des variables leurs modalités peut notamment varier dans le temps, sans qu’il soit possible de savoir si cette évolution est liée à l’évolution du site Airbnb ou de la méthodologie d’AirDNA. L’exemple ci-dessous nous montre le calendrier des créations de logements sur la plateforme Airbnb à Paris entre 2011 et 2022. On observe sur les premières années un schéma redondant : aucun logement n’est enregistré le dernier jour du mois. Il semble y avoir un rattrapage lors du premier jour du mois suivant. En 2019, il semble que ce rattrapage a lieu tous les lundis, et au mois de décembre.

Création de logements 2011-2016 (Paris)

Création de logements 2017-2022 (Paris)

Accès et partage de données sensibles à haute valeur économique

  1. Limites juridiques : revente de données webscrapées Flou juridique : des données à caractère personnelles revendues. Confrontation législation américaine et européenne. Nécessité d’agrégation des données. Nécessité de la mise en place d’un cadre juridique pour réglementer l’usage de ces données, en avertissant notamment les utilisateurs Airbnb de l’usage de leur données déposées.

Avec l’évolution rapide du cadre juridique (RGPD, TOS +/- légale), la collecte de ces données au-delà du cadre juridique prévu par les entreprises soulève évidemment des considérations éthiques. Avec le RGPD nous pensons qu’il est important de reconsidérer cette collecte par le prisme d’un triptyque asymétrique que forment les utilisateurs d’un service web, les propriétaires des plateformes et les utilisateurs tiers qui récoltent des données, surtout si ces dernières sont de natures individuelles et géolocalisées. (https://hal.science/hal-02373090/)

Carences des plateformes : manque de coopération, manque d’autorégulation https://left.eu/content/uploads/2020/12/GUE-NGL-Fr_compressed-2.pdf

https://www.dastra.eu/fr/guide/le-scraping-et-le-rgpd/52038 https://hal.science/hal-03883797/

Je n’ai pas réussi à placer ça dans le commmentaire (mettre à jour .bib) - Agarwal, Vinod & Koch, James & Mcnab, Robert. (2018). Differing Views of Lodging Reality: Airdna, STR, and Airbnb. Cornell Hospitality Quarterly. 60. 193896551877721. 10.1177/1938965518777218. - https://www.insee.fr/fr/statistiques/2589218

Les données AirDNA sur l’Ile-de-France : analyses de qualité, nettoyage et enrichissement

Les données utilisées dans ce site Web ont été acquises auprès d’AirDNA pour la période 2014-2022 et couvrent l’ensemble de l’Ile-de-France.

Structure de la base

La base AirDNA se compose de 2 tableaux de données : le premier décrit les caractéristiques de chaque logements enregistrés sur le site depuis 2008, sur les 12 derniers mois. Parmi ces logements, certains (la majorité) ne sont plus actifs en 2022. Il est possible de retracer la période de disponibilité de ces logements via les colonnes indiquant la date de création et le dernier mois scrapé. Les dimensions de ce tableau sont de 443690 lignes pour 70 colonnes. Le second tableau de données sera celui utilisé pour les analyses. Il comporte un résumé mensuel de chacun des logements présent sur la plateforme depuis 2014, avec entre autres le revenu engendré par un logement à un mois donné, le nombre de nuitées réservées, disponibles et bloquées durant ce mois, et le prix dudit logement. Plus lourd que le premier, ce tableau est composé de plus de 13M de lignes pour 29 colonnes. Il s’agit de tableaux de données assez lourds (760MB pour le premier, > 3GB pour le second).

Tableaux descriptif des variables

Tableau individuel

Variable

Type

Description

Valeurs uniques

Valeurs non attribuées

Valeurs non attribuées (%)

Airbnb Accuracy Rating

numeric

Note sur 10 attribuée par le visiteur à l’exactitude de l’annonce

10

165,703

37.3

Airbnb Checkin Rating

numeric

Note sur 10 attribuée par le visiteur à l’accueil de l’hôte

10

165,861

37.4

Airbnb Cleanliness Rating

numeric

Note sur 10 attribuée par le visiteur à la propreté du logement

10

165,567

37.3

Airbnb Communication Rating

numeric

Note sur 10 attribuée par le visiteur à la communication de l’hôte

10

165,631

37.3

Airbnb Home Collection

logical

TRUE : le logement fait partie d’un ensemble de logements sélectionnés par Airbnb pour un type spécifique de voyage

1

443,690

100.0

Airbnb Host ID

numeric

Identifiant unique de chaque hôte Airbnb

281,648

24,507

5.5

Airbnb Location Rating

numeric

Note sur 10 attribuée par le visiteur à la localisation du logement

10

165,870

37.4

Airbnb Property ID

numeric

Identifiant unique de chaque propriété Airbnb

419,623

24,068

5.4

Airbnb Property Plus

logical

TRUE : le logement est considéré par Airbnb comme étant « exceptionnel » et vérifié par un contrôle qualité

3

0

0.0

Airbnb Response Time (Text)

character

Temps de réponse de l’hôte

5

0

0.0

Airbnb Superhost

logical

TRUE si l’hôte est Superhost

3

0

0.0

Airbnb Value Rating

numeric

Note sur 10 attribuée par le visiteur au rapport qualité/prix

10

165,904

37.4

Amenities

character

Aménités présentes au sein du logement

256,928

0

0.0

Annual Revenue LTM (Native)

numeric

Revenus totaux engendrés par l’hôte sur l’année passée

31,892

26,018

5.9

Annual Revenue LTM (USD)

numeric

Revenus totaux engendrés par l’hôte sur l’année passée

34,252

2,148

0.5

Average Daily Rate (Native)

numeric

Revenus engendré par l’hôte pour une réservation

30,632

349,757

78.8

Average Daily Rate (USD)

numeric

Revenus engendré par l’hôte pour une réservation

32,812

344,798

77.7

Bathrooms

numeric

Nombre de salles de bain

37

1,982

0.4

Bedrooms

numeric

Nombre de chambres

31

690

0.2

Calendar Last Updated

Date

Dernier jour durant lequel l’hôte a mis à jour son calendrier

2,528

0

0.0

Cancellation Policy

character

Mesures d’annulation

94

0

0.0

Check-in-Time

character

Heure du check-in

485

0

0.0

Checkout Time

character

Heure du checkout

63

0

0.0

City

character

Ville dans laquelle se situe le logement

1,202

0

0.0

Cleaning Fee (Native)

numeric

Frais de ménage par réservation dans la devise choisie par l’hôte

260

309,827

69.8

Cleaning Fee (USD)

numeric

Frais de ménage par réservation en dollars

586

187,710

42.3

Count Available Days LTM

numeric

Nombre de jours classés comme disponibles

301

344,739

77.7

Count Blocked Days LTM

numeric

Nombre de jours classés comme bloqués durant les 12 derniers mois

255

344,739

77.7

Count Reservation Days LTM

numeric

Nombre de jours classés comme réservés durant les 12 derniers mois

366

344,739

77.7

Country

character

Pays dans lequel se situe le logement

2

0

0.0

Created Date

Date

Date durant laquelle a été mis en ligne le logement

4,360

0

0.0

Currency Native

character

Devise choisie par l’hôte

33

0

0.0

Exact Location

logical

TRUE : l’annonce se situe à l’endroit précis où elle est localisée

3

0

0.0

Extra People Fee (Native)

numeric

Frais pour un voyageur supplémentaire dans la devise choisie par l’hôte

149

391,079

88.1

Extra People Fee (USD)

numeric

Frais pour un voyageur supplémentaire en dollars

239

370,077

83.4

HomeAway Location Type

logical

Type de logement HomeAway

412

0

0.0

HomeAway Premier Partner

logical

TRUE si l’hôte est Premier Partner chez HomeAway

3

0

0.0

HomeAway Property ID

logical

Identifiant unique de chaque propriété Homeaway

36,800

0

0.0

HomeAway Property Manager ID

logical

Identifiant unique de chaque hôte Homeaway

53

0

0.0

Instantbook Enabled

logical

TRUE : l’annonce peut être réservée sans devoir communiquer avec l’hôte

4

0

0.0

Integrated Property Manager

logical

TRUE : l’hôte vit dans le logement qu’il loue

3

0

0.0

Last Scraped Date

Date

Dernier jour où le logement a été scrapé. Chaque logement est scrapé tous les 3 jours

2,597

0

0.0

Latitude

numeric

Latitude du logement

240,338

0

0.0

License

character

Numéro de licence de l’hôte

66,954

5

0.0

Listing Images

character

Photos de l’annonce

393,442

0

0.0

Listing Main Image URL

character

Lien URL vers la photo principale de l’annonce

431,160

0

0.0

Listing Title

character

Titre de l’annonce

397,553

1

0.0

Listing Type

character

Type de logement (selon modalités Airbnb)

5

0

0.0

Listing URL

character

Lien URL vers l’annonce

443,690

0

0.0

Longitude

numeric

Longitude du logement

255,831

0

0.0

Max Guests

numeric

Capacité d’accueil en nombre de voyageurs

44

708

0.2

Metropolitan Statistical Area

logical

Aire statistique métropolitaine dans laquelle se trouve le logement (seulement aux USA)

1

443,690

100.0

Minimum Stay

numeric

Durée minimale du séjour

192

2,774

0.6

Neighborhood

logical

Quartier où se situe le logement

23

0

0.0

Number of Bookings LTM

numeric

Nombre de réservations lors des 12 derniers mois

250

2,148

0.5

Number of Photos

numeric

Nombre de photos présentes sur l’annonce

175

4,158

0.9

Number of Reviews

numeric

Nombre total de commentaires sur l’annonce

601

28,651

6.5

Occupancy Rate LTM

numeric

Taux de fréquentation : Nombre de jours réservés / (nombre de nuitées réservés + nombre de nuitées disponibles) Les calculs ne prennent pas en compte les jours bloqués et les mois sans réservation

968

344,739

77.7

Overall Rating

numeric

Note du visiteur sur une échelle de 0 à 100

71

156,266

35.2

Pets Allowed

logical

TRUE : les animaux sont autorisés au sein du logement

3

0

0.0

Property ID

character

Identifiant unique de chaque propriété

443,690

0

0.0

Property Type

character

Type de logement (choisi par l’hôte)

195

0

0.0

Published Monthly Rate (USD)

numeric

Prix mensuel choisi par l’hôte

13,394

168,421

38.0

Published Nightly Rate (USD)

numeric

Prix choisi par l’hôte pour une nuitée

2,479

42,131

9.5

Published Weekly Rate (USD)

numeric

Prix hebdomadaire choisi par l’hôte

5,673

168,364

37.9

Response Rate

numeric

Pourcentage de réponse de l’hôte dans les 24h

102

93,039

21.0

Security Deposit (Native)

numeric

Caution choisie par l'hôte dans sa devise

1,014

329,105

74.2

Security Deposit (USD)

numeric

Caution choisie par l’hôte en dollars

3,149

299,667

67.5

State

character

Région dans laquelle se situe le logement

1

0

0.0

Zipcode

logical

Code postal de la ville du logement

1

443,690

100.0

Tableau mensuel

Variable

Type

Description

Valeurs uniques

Valeurs non attribuées

Valeurs non attribuées (%)

Active

logical

TRUE si le logement a été proposé ou réservé au moins un jour durant la période de récolte

2

0

0.0

ADR (Native)

numeric

Revenus engendré par l’hôte pour une réservation

81,206

9,401,098

71.7

ADR (USD)

numeric

Revenus engendré par l’hôte pour une réservation

85,876

9,276,519

70.7

Airbnb Host ID

numeric

Identifiant unique de chaque hôte Airbnb

280,175

752,040

5.7

Airbnb Property ID

numeric

Identifiant unique de chaque propriété Airbnb

416,735

748,188

5.7

Available Days

numeric

Nombre de jours classifiés comme disponibles

33

38,067

0.3

Bedrooms

numeric

Nombre de chambres

31

9,732

0.1

Blocked Days

numeric

Nombre de jours classifiés comme bloqués à la réservation.

33

38,067

0.3

City

character

Ville dans laquelle se situe le logement

1,202

0

0.0

Country

character

Pays dans lequel se situe le logement

1

0

0.0

Currency Native

character

Devise choisie par l’hôte

36

0

0.0

HomeAway Property ID

logical

Identifiant unique de chaque propriété Homeaway

36,337

0

0.0

HomeAway Property Manager

logical

Identifiant unique de chaque hôte Homeaway

53

0

0.0

Latitude

numeric

Latitude du logement

238,003

0

0.0

Listing Type

character

Type de logement (selon modalités Airbnb)

5

0

0.0

Longitude

numeric

Longitude du logement

253,452

0

0.0

Metropolitan Statistical Area

logical

Aire statistique métropolitaine dans laquelle se trouve le logement (seulement aux USA)

1

13,112,097

100.0

Neighborhood

logical

Quartier où se situe le logement

23

0

0.0

Number of Reservations

numeric

Nombre de réservations durant le mois

33

38,067

0.3

Occupancy Rate

numeric

Taux de fréquentation : Nombre de jours réservés / (nombre de nuitées réservés + nombre de nuitées disponibles) pendant le mois

310

818,563

6.2

Property ID

character

Identifiant unique de chaque propriété

440,538

0

0.0

Property Type

character

Type de logement (choisi par l’hôte)

195

0

0.0

Reporting Month

Date

Mois pendant lequel les données ont été récoltées

99

0

0.0

Reservation Days

numeric

Nombre de nuitées réservées durant le mois

33

38,067

0.3

Revenue (Native)

numeric

Revenus totaux engendrés pendant la période de récolte dans la devise choisie par l’hôte

560,242

769,995

5.9

Revenue (USD)

numeric

Revenus totaux engendrés pendant la période de récolte en dollars

363,515

1,789,571

13.6

Scraped During Month

logical

TRUE si le logement a été scrapé pendant le mois

2

0

0.0

State

character

Région dans laquelle se situe le logement

1

0

0.0

Zipcode

logical

Code postal de la ville du logement

1

13,112,097

100.0

Prétraitements

Le travail de consolidation des bases de données permet de passer des fichiers bruts aux fichiers exploitables, et se décline en différentes étapes :

  • Concordance sous deux aspects : les deux bases de données décrivent-elles les même logements ? Y’a-t-il des doublons ? Du point de vue géographique, leur localisation coincide-t-elle avec la ville indiquée ?
  • Nettoyage des données : passe par la suppression des logements autres que Airbnb, des hôtels & campings, des valeurs aberrantes, puis une sélection des variables d’intérêt.
  • Création de nouvelles variables à partir de celles existantes. On peut citer le prix par personne ou bien la distinction entre multi-propriétaires.

Toutes ces opérations sont regroupées et documentées dans un script R dédié. Après les étapes de pré-traitement des données, environ 7% des lignes seront supprimées des tableaux, et la sélection sur les logements actifs permet de réduire de moitié les dimensions des tableaux. Dans les faits, le tableau individuel sera utile seulement pour la variable relative à la création de logements. Tous les autres traitement et représentations cartographiques seront effectués à partir du tableau mensuel.

Tableau

Nombre d'observation

Étape 1 : concordance

Étape 1 (%)

Étape 2 : suppression Hôtels & Camping

Étape 2 (%)

Étape 3 : suppression logements HomeAway

Étape 3 (%)

Étape 4 : suppression de valeurs aberrantes

Étape 4 (%)

Total (%)

Sélection logements actifs

Suppression logements actifs (%)

Tableau individuel

443,690

440,538

0.7

432,503

1.8

410,416

5.1

410,021

0.1

7.6

Tableau mensuel

13,112,097

13,112,097

0.0

12,935,951

1.3

12,185,965

5.8

12,181,494

0.0

7.1

6,339,499

51.7

Enrichissement avec les données de l’INSEE

Afin d’étudier la distribution des logements Airbnb en Ile-de-France et en particulier la part de logements Airbnb vis-à-vis du parc de résidences principales, nous avons fait appel aux données INSEE afin d’associer aux logements leur commune/IRIS ainsi que leur carreau d’appartenance et de pouvoir y agréger les données en vue de représentations cartographiques de différents indicateurs d’intérêt. Les fichiers INSEE relatifs à la maille territoriale et au carroyage 1000m/200m proposent en outre le nombre de ménages, entendu comme résidence principale, au sein de cette maille. Les derniers chiffres en date relatifs au nombre de logements remontent à 2019 pour la maille territoriale, et 2017 pour le carroyage.

Les fichiers communaux proposent en plus du nombre de résidences principales, les données relatives aux résidences secondaires et logements vacants, ainsi que le type de logement. Les variables situées dans les grilles INSEE quant à elles portent plutôt sur la structure des ménages et la date de construction des logements.

L’apport de la multireprésentation

https://www.lecfc.fr/new/articles/213-article-5.pdf

Focus méthodologique : les cartes de lissage par potentiels

Dès lors que les données sont géoréférencées, il est possible de s’affranchir de la maille territoriale en interpolant les attributs des offres locatives de courte durée (nombre de nuitées, revenus générés etc.) dans la grille INSEE d’un kilomètre et dans un voisinage géographique donné. En effet, les agrégats géographiques plus larges sont peu adaptés lorsqu’il s’agit de décrire la structure locale des marchés immobiliers (Le Goix et al. 2019). De plus, les erreurs de géoréférencement peuvent être imputées de manière erronée une offre Airbnb à une maille, comme nous l’avons vu plus haut. Ce faisant, il peut être utile d’interpoler les résultats pour obtenir une lecture géographique des transactions localisées.

La méthode employée, celle des potentiels de Stewart (1942), consiste en tout lieu de l’espace à estimer les attributs des transactions immobilières dans un voisinage géographique donné, suivant une fonction exponentielle inverse de la distance (giraud2020?). Chaque carreau de grille décrit alors les prix pratiqués dans son propre contexte géographique. Cette méthode permet de résoudre les effets de MAUP (ou de bruit statistique lié à un trop faible nombre d’observations) et d’observer les structures spatiales, tout en faisant varier les modalités d’agrégation (Grasland et al. 2006).

Les cartes lissées proposées ici s’affranchissent alors du maillage initial et donner à voir l’intensité du phénomène de façon continue en représentant les valeurs potentielles d’une variable dans un voisinage géographique donné. Il s’agit d’un voisinage gaussien, c’est-à-dire que les points plus éloignés auront une masse moindre. Ainsi, un voisinage gaussien de 1000m ne signifie pas que les individus situés au-delà de 1000m ne seront pas comptabilisés. Nous utiliserons ici le modèle de potentiel de Stewart (1942), ou le potentiel d’un lieu i est défini comme le stock d’opportunités (ici les logements Airbnb) présentes dans des lieux j situés dans le voisinage de i. Visuellement, cela nous permet de passer d’une information continue (des points) à une représentation lissée, et donc de “voir aussi bien les spécificités locales d’un phénomène que ses tendances générales” (Lambert et Zanin 2016).

Prenons l’exemple des annonces Airbnb. À partir des tableaux de données uniquement, nous représentons ici sur un plan deux informations : la localisation des logement Airbnb, ainsi que leur nombre de nuitées réservées.

À la suite de manipulations spatiales, il est possible de joindre les points à leur commune / grille d’appartenance, et d’y agréger les points (logements) ainsi que leurs propriétés

Agrégation à la commune

À la grille régulière

Si la première représentation permet de comparer les communes entre elles, elle ne dit rien de la distribution des logements Airbnb à une échelle infra-communale. La grille régulière offre une meilleur visualisation de cette distribution, mais le maillage en lui-même représente une limite à cette visualisation. Elle reste néanmoins l’outil nécessaire au calcul de potentiels. En effet, elle nous permet dans un premier temps de calculer la distance entre deux points (ou plus précisément le centroide d’un carreau et un autre point)

Point de référence (centroide du carreau)

Distance au point

La fonction d’interaction spatiale

Le potentiel d’accessibilité à un point va être calculé selon plusieurs paramètres : la portée (span), qui désigne la distance à laquelle l’attractivité mesurée d’un point sera divisée par 2, la limite, c’est-à-dire la distance maximale à laquelle le potentiel sera évalué, et la friction à la distance (beta), qui agit sur une prise en compte plus ou moins importante de la distance. Nous jouons principalement sur le paramètre de la portée, qui varie selon la taille de la maille. Une portée plus grande permettra de chercher le stock d’opportunités dans un voisinage plus lointain, et inversement. Ainsi, une portée de 1000 signifie qu’un individu situé à 1000m du point d’intérêt aura un “poids” de 0.5 dans le calcul de potentiel.

Les paramètres vont donc influer sur le calcul de potentiel des points. La probabilité d’interaction sera calculée à l’aide de la fonction d’interaction spatiale, attribuant à chaque point une valeur en fonction de leur distance à un point donné. Cette valeur sera par la suite multipliée par la masse des points (c’est-à-dire la variable en question), pour obtenir en sortie la valeur potentielle de cette même variable.

Probabilité d’interaction

Multipliée par la masse des points

Valeurs potentielles dans un voisinage

Si la variable est représentée en cercles proportionnels sur les cartes précédentes, il est tout à fait possible de la représenter en aplats de couleur (carte choroplète). C’est d’ailleurs l’essence même des cartes lissées : un gradient de couleur vient représenter la valeur potentielle d’une variable. La carte suivante prend en entrée les mêmes données, et les transforme à l’aide du package mapiso (Giraud, 2022).

Réagrégation des valeurs potentielles à la grille

Carte lissée

L’effet de la portée

Afin de montrer l’effet de différentes portées sur le calcul de potentiel et par conséquent sur les lissages, nous prenons l’exemple de la distribution (fictive) de la population en Martinique. Nous présentons dans un premier temps cette distribution sous forme de semis de points, avant d’agréger ces données dans une grille régulière. On peut alors passer d’un semis de points à une carte choroplète

Semis de points

Carte choroplète

Nous calculons par la suite les valeurs potentielles avec deux modalités de portée différentes : on cherche dans un premier cas de figure le stock d’individus dans un voisinage gaussien de 1000m, puis dans un voisinage gaussien de 2000m

Par exemple, si l’on se réfère à la fonction d’intensité de l’interaction spatiale ci-dessus, le poids d’un individu j localisé à 3000m d’un point i sera d’environ 0.25 dans le calcul de potentiel dans un voisinage gaussien de 2000m (courbe de droite). Dans une portée plus courte de 1000m, un individu localisé à cette même distance de 3000m aura un poids relatif quasiment nul.

Ici, il n’est pas nécessaire de multiplier la valeur potentielle de chaque point, car le potentiel est réalisé sur chaque individu.

Portée : 1000m

Portée : 2000m

Sur l’exemple de gauche, on remarque qu’un portée plus courte permet de repérer les spécificités locales. Enfin, le package mapiso (Giraud, 2022) permet de transformer des grilles régulières en polygones

Portée 1000m

Portée 2000m

Ainsi, la légende peut se lire comme suit : la couleur rouge foncée correspond à une population entre 91 et 440 individus dans un voisinage gaussien de 1000m (carte de gauche), et entre 352 et 1448 dans un voisinage gaussien de 2000m (carte de droite). La définition de la portée fait donc l’objet de choix méthodologiques relatifs à la taille de la maille ainsi qu’à la volonté de l’utilisateur de repérer les structures spatiales à des échelles plus ou moins fines.

Les références

Briquet-Laugier, Jean-Charles, Clémentine Chier, Sylvie Rochhia, et Dominique Torre. 2021. « Airbnb en Provence Alpes Côte d’Azur ». Research Report. MSHS Sud-EST ; GREDEG CNRS ; Région Provence Alpes Côte d’Azur. https://shs.hal.science/halshs-03402631.
Grasland, Claude, Malika Madelin, Hélène Mathian, Lena Sanders, Nicolas Lambert, Maher Ben Rebah, Martin Charlton, et al. 2006. « The Modifiable Areas Unit Problem ». Research Report. ESPON | Inspire Policy Making with Territorial Evidence. https://hal.science/hal-03596052.
Lambert, Nicolas, et Christine Zanin. 2016. Manuel de cartographie: principes, méthodes, applications. Armand Colin.
Le Goix, Renaud, Timothée Giraud, Robin CURA, Thibault Le Corre, et Julien Migozzi. 2019. « Who sells to whom in the suburbs? Home price inflation and the dynamics of sellers and buyers in the metropolitan region of Paris, 1996-2012 ». PLoS ONE 14 (3): e0213169. https://doi.org/10.1371/journal.pone.0213169.
Perilleux, Hugo, Mathilde Retout, et Jean-Michel Decroly. 2021. « La gentrification touristique par la conversion de logements en meublés loués sur les plateformes Airbnb et Homeaway, une étude de cas sur Bruxelle ». Bulletin de la Société Géographique de Liège 76 (1): 245‑58. https://popups.uliege.be/0770-7576/index.php?id=6334.
Stewart, John Q. 1942. « A measure of the influence of a population at a distance ». Sociometry n° 5: 63‑71.