banner
Centre d'Information
Une maîtrise exceptionnelle de leur métier.

Un humain

May 12, 2023

Rapports scientifiques volume 13, Numéro d'article : 8699 (2023) Citer cet article

921 accès

1 Altmétrique

Détails des métriques

Cet article illustre les résultats obtenus en utilisant des modèles d'apprentissage en profondeur de segmentation sémantique pré-entraînés pour la détection de sites archéologiques dans l'environnement des plaines inondables mésopotamiennes. Les modèles ont été affinés à l'aide d'images satellite librement accessibles et de formes vectorielles provenant d'un vaste corpus d'annotations (c'est-à-dire de sites étudiés). Un test randomisé a montré que le meilleur modèle atteint une précision de détection aux alentours de 80 %. L'intégration de l'expertise du domaine était cruciale pour définir comment construire l'ensemble de données et comment évaluer les prédictions, car définir si un masque proposé compte comme une prédiction est très subjectif. De plus, même une prédiction inexacte peut être utile lorsqu'elle est mise en contexte et interprétée par un archéologue qualifié. À partir de ces considérations, nous terminons l'article avec une vision d'un flux de travail de collaboration entre l'homme et l'IA. En partant d'un ensemble de données annoté et affiné par l'expert humain, nous obtenons un modèle dont les prédictions peuvent soit être combinées pour créer une carte thermique, soit superposées sur des images satellitaires et/ou aériennes, soit être vectorisées pour effectuer une analyse plus approfondie dans un SIG. logiciel plus facile et automatique. À leur tour, les archéologues peuvent analyser les prévisions, organiser leurs enquêtes sur site et affiner l'ensemble de données avec de nouvelles annotations corrigées.

Cet article documente les résultats d'une collaboration entre des scientifiques des données et des archéologues dans le but de créer un système d'intelligence artificielle (IA) capable d'aider à la tâche de détection de sites archéologiques potentiels à partir d'images aériennes ou, dans notre cas, d'images satellitaires. L'utilisation de modèles de segmentation sémantique nous a permis de tracer des contours précis et l'évaluation par l'homme dans la boucle a montré que la précision de détection est d'environ 80 %.

Cette procédure relève du domaine de la télédétection (RS) qui désigne l'acte de détecter et/ou de surveiller un point d'intérêt à distance. Dans le monde de l'archéologie, cette opération est devenue inestimable avec la disponibilité d'images satellites plus nombreuses et de meilleure qualité qui peuvent être combinées avec des sources d'informations plus anciennes (par exemple, l'imagerie satellite CORONA) pour repérer un plus grand nombre de sites archéologiques ainsi que suivre leur dégradation successive due aux facteurs anthropiques1. Selon la zone d'investigation et la taille des éléments archéologiques étudiés, l'effort nécessaire, notamment en termes de temps, peut être énorme pour le chercheur.

Cette collaboration visait à résoudre exactement ce problème en utilisant des modèles d'apprentissage en profondeur pour rationaliser, mais pas complètement automatiser, le processus. Ainsi, à partir d'un ensemble de données de formes vectorielles pour tous les sites archéologiquement enregistrés dans la plaine inondable du sud de la Mésopotamie (qui représente une région géomorphologique suffisamment cohérente), nous avons formé un modèle pour détecter et segmenter les sites dans une image d'entrée donnée. Au fil du projet, un certain nombre de questions sont apparues qui rendent ce problème particulièrement difficile à aborder et conduisent à une réflexion importante sur l'utilisation de l'apprentissage en profondeur en général et sa relation avec les experts humains. L'ensemble de données, bien qu'il puisse être considéré comme un très grand pour l'archéologie du Proche-Orient avec ses près de 5000 sites, est à peine suffisant pour former un modèle aussi grand que ceux de pointe que nous voyons en usage aujourd'hui et, peut-être plus important encore , contient de nombreux cas qui ne sont visibles que sur certaines anciennes images. Le premier problème est généralement résolu par l'apprentissage par transfert2. Cette technique consiste à partir d'un modèle, pré-formé sur un ensemble de données large et général (par exemple imagenet3), puis à l'affiner sur un ensemble de données plus petit mais plus spécifique, en tirant parti des compétences qu'il a précédemment acquises pour réaliser la nouvelle tâche. plus gérable. Le second, cependant, met à la fois la formation et l'évaluation en péril, car le modèle est poussé à faire de mauvaises classifications pendant la formation et même s'il apprenait des représentations robustes qui ignorent les mauvais exemples, nous aurions alors du mal à détecter si c'est une erreur. par le modèle ou dans les étiquettes.

Nous croyons que le seul moyen de sortir de cette énigme est d'adopter une approche humaine dans la boucle1. Pour cette raison, tout au long de l'article, nous soulignons l'importance d'intégrer l'expertise du domaine pendant la phase de formation et d'évaluation de nos expériences, car cela était crucial pour améliorer l'ensemble de données utilisé et, par conséquent, le modèle. Le résultat final de ce processus itératif est un modèle capable d'une précision de détection d'environ 80 %.

Sur la base de ces résultats prometteurs, nous envisageons un outil de collaboration homme-IA pour soutenir les archéologues dans les opérations de télédétection (plutôt que de les remplacer) et proposer un nouveau type de flux de travail, améliorant à la fois leur tâche et le modèle en fournissant des données améliorées après chaque utilisation4,5. Tous les résultats ont été obtenus à l'aide de logiciels et de modèles open source, ainsi que de données librement disponibles (images, annotations) et de ressources informatiques (Google Colab), ce qui rend ce type de travail hautement accessible et reproductible même dans des environnements de recherche à ressources limitées. Tous les codes, données et ressources mentionnés sont disponibles sur GitHub (https://bit.ly/NSR_floodplains).

La plaine inondable du sud de la Mésopotamie est une région cruciale pour comprendre l'interaction complexe entre le regroupement spatial des communautés humaines et le développement des terres agricoles irriguées dans un environnement par ailleurs semi-aride6. Les levés de Robert McCormick Adams dans la région7,8,9 sont menés selon des normes sans précédent pour l'époque : il utilise un ensemble de photographies aériennes de 1961 pour localiser les sites potentiels et cartographier les canaux dont les traces sont visibles en surface ; il était systématique dans les sites d'enregistrement allant de la fin du 7e millénaire avant notre ère à la période ottomane; il était surtout conscient du potentiel historiographique de son travail d'arpentage, qui a abouti à une puissante interprétation des modes de peuplement et des activités hydrauliques8.

Après un long arrêt des travaux de terrain en raison de l'instabilité politique, les recherches archéologiques ont repris dans le sud de l'Irak ces dernières années, voir10 pour un aperçu. Dans cette zone, les sites sont généralement désignés par le mot arabe pour monticule, "Tell". La couleur et la forme de ces collines les rendent particulièrement visibles à partir d'images aériennes et satellitaires, ce qui a conduit à l'utilisation de la télédétection comme stratégie viable pour découvrir leur emplacement.

Comme le dit Tony Wilkinson, "les tell comprennent plusieurs couches de niveaux de construction et de déchets accumulés accumulés au fil du temps, en partie parce que le lieu d'occupation est resté stationnaire. Les colonies de tell sont souvent définies par un mur extérieur qui contenait et contraignait les matériaux accumulés, limitant ainsi leur propagation […]. Le tell n'est en aucun cas le lieu de vente de l'occupation […]. Les villes périphériques ou basses […] apparaissent souvent comme des bosses basses ou simplement des artefacts éparpillés autour des tell, et elles peuvent étendre la zone totale occupée d'un site plusieurs fois"11.

En Mésopotamie, les Tells ne sont souvent que légèrement plus élevés que la campagne environnante, étant souvent sujets dans de tels cas à un nivellement artificiel afin de gagner des zones agricoles irrigables. Ainsi, la détection automatique de sites dans un environnement aussi dynamique est une opération très complexe, bien que les contrastes soient suffisamment marqués pour justifier la tentative.

Par télédétection, on peut faire référence à l'utilisation de n'importe quel capteur (c'est-à-dire température, humidité, hyper-spectral, images satellites, etc.) pour détecter ou surveiller un point d'intérêt sans avoir besoin d'une observation directe. Cette approche est pertinente pour une variété de domaines, mais les solutions qui fonctionnent dans un domaine peuvent ne pas se traduire dans d'autres.

Localiser des sites archéologiques à distance était certes possible avant même l'avènement de l'informatique moderne en utilisant des photographies aériennes et des cartes topographiques de la zone à explorer, mais aujourd'hui, il est plus facile de combiner plusieurs sources, en utilisant des capteurs de nature différente ou à des moments différents. , pour avoir une image plus complète de l'environnement, d'autant plus qu'il peut changer en raison de facteurs naturels ou anthropiques12,13,14. Selon les caractéristiques des sites, certaines représentations peuvent être utiles comme les modèles d'élévation obtenus à partir d'images stéréoscopiques ou l'utilisation de parties du spectre électromagnétique autres que la lumière visible comme l'infrarouge ou les ondes radio15,16. La détection et la télémétrie de la lumière (LiDAR) deviennent également populaires car elles donnent des images haute résolution satisfaisantes, mais elles peuvent être difficiles à utiliser car elles nécessitent souvent d'être montées sur une sorte d'engin aéroporté comme des drones17. Le problème avec ces types de sources est qu'elles peuvent ne pas être disponibles pour chaque emplacement ou ne pas avoir une résolution suffisamment élevée pour la tâche à accomplir. D'autre part, des images RVB open source de bonne qualité de pratiquement n'importe quel endroit de la planète sont facilement disponibles, en particulier grâce à la popularité des services en ligne tels que Google Maps ou Bing Maps. Concrètement, dans ce projet, nous utilisons l'imagerie satellitaire du service Bing Maps qui, pour la zone analysée, offre une excellente visibilité des traces anthropiques sur lesquelles nous nous concentrons : Tells.

L'apprentissage en profondeur a trouvé de multiples utilisations dans tous les domaines d'application et l'archéologie ne fait pas exception. Cela peut aider à classer des objets et du texte, à trouver des similitudes, à construire des modèles 3D et, comme l'illustre également cet article, à détecter des sites18,19,20,21,22. Une difficulté dans la gestion d'un tel modèle est qu'il nécessite la collaboration d'experts du domaine en archéologie et en apprentissage en profondeur, mais cela peut également dépendre de la quantité de données disponibles. Les réseaux de neurones sont notoirement gourmands en données, et l'archéologie est un domaine de « données lentes », comme l'a dit Bickler23. Néanmoins, il existe quelques exemples récents d'apprentissage en profondeur appliqué avec succès à la détection de sites dans une variété de scénarios différents24,25,26,27. La plupart des applications utilisent soit un réseau de neurones pour effectuer une tâche de classification, de détection ou de segmentation. La première utilise des tuiles échantillonnées à partir de cartes marquées comme contenant ou non le site d'intérêt ; la seconde consiste plutôt à prédire une boîte englobante autour d'un objet et à le classer si besoin ; dans le troisième, les pixels individuels sont classés, et le résultat est la prédiction d'une forme correspondant au site. Dans cet article, nous utilisons la deuxième approche, décrite ci-dessous.

La segmentation sémantique est la tâche de diviser une image en parties qui correspondent à des unités ayant une signification spécifique. Ceux-ci peuvent correspondre à un sujet précis (par exemple, la silhouette de personnes, de véhicules, etc.) ou à une catégorie générique qui englobe plusieurs entités (par exemple, des bâtiments, des arrière-plans, etc.). Dans le cadre de cet article, nous n'avons que deux catégories : une pour les sites en monticule (tell) et une autre pour tout le reste. La segmentation peut être effectuée avec diverses techniques qui effectuent une classification au niveau des pixels. Une approche très courante utilise des caractéristiques précalculées, extraites par un algorithme, ou conçues manuellement, qui sont ensuite classées par un algorithme Random Forest28. L'état actuel de l'art est représenté par des systèmes de bout en bout basés sur l'apprentissage en profondeur avec des réseaux de neurones convolutifs. Pour cette approche, l'introduction de U-Net par Ronnenberger dans le cadre de l'imagerie médicale a représenté une étape importante29. Ce travail s'appuie sur une architecture plus récente, appelée MA-Net30, qui peut être considérée comme une mise à niveau de l'architecture U-Net avec l'inclusion d'un mécanisme d'auto-attention tel que proposé dans les architectures Transformer populaires31. Cela permet au modèle de peser différentes caractéristiques latentes en fonction du contenu, en spécifiant au sens figuré où «faire attention» dans cet espace latent afin de mieux apprendre. Bien qu'il ait été développé dans le contexte de l'imagerie médicale, il a également été utilisé dans des tâches de télédétection32,33. Dans la section "Matériels et méthodes" ci-dessous, nous fournissons plus de détails.

Dans un article précédent, nous avons essayé de résoudre ce même problème en utilisant une approche de classification d'images où la carte était divisée en tuiles34. Dans cette expérience, cependant, l'ensemble de données était d'un ordre de grandeur plus petit et nous avons dû recourir à une augmentation agressive des données afin d'améliorer les performances. Le meilleur modèle a obtenu un score AUC d'environ 70 %, mais lorsqu'il a été testé sur une partie invisible de la carte, il a montré ses limites en ce qu'il a prédit de nombreux faux positifs tout en manquant certains sites. Le plus grand compromis de cette approche de classification basée sur les tuiles est entre la taille des tuiles et la granularité des prédictions avec des carrés plus grands qui sont plus pratiques mais entraînent une perte de détails. Il y a aussi le problème de traiter les sites qui atterrissent sur le bord d'une tuile. Une solution que nous avons essayée consistait à créer un jeu de données en bardeaux avec des tuiles intermédiaires pour combler les lacunes. Cela a cependant considérablement augmenté la quantité de prédiction à créer. Enfin, la plupart des modèles de classification d'images sont liés par l'utilisation d'une taille d'entrée fixe, ce qui peut être une énorme limite lorsqu'il s'agit de cartes. Dans cette nouvelle expérience, compte tenu de la taille accrue de l'ensemble de données, nous avons décidé de tirer parti des modèles de segmentation d'image avec des couches entièrement convolutionnelles qui traitent à la fois les limites de la taille d'entrée et le compromis de granularité.

Dans cette section, nous décrivons d'abord l'ensemble de données utilisé, qui a été construit à partir de ressources librement disponibles, puis les modèles open source que nous avons affinés sur cet ensemble de données.

Nous avons commencé avec un ensemble de données de formes vectorielles géoréférencées correspondant aux contours des sites de monticules connus dans la zone d'étude du projet Floodplains qui s'étend sur 66 000 km2, comme le montre la Fig. 1. L'ensemble de données - développé à l'Université de Bologne en classant tous ont publié des enquêtes archéologiques dans la région et géo-référencé à nouveau les sites qui y sont catalogués (https://floodplains.orientlab.net) - contient 4934 formes, donc toutes se référant à des sites qui avaient été confirmés par la vérification au sol et par l'étude associée de la dispersion en surface des artefacts.

Zone d'enquête. Les points orange représentent les sites étudiés dans la plaine inondable mésopotamienne. Le rectangle rouge plein est une zone de test sélectionnée à Maysan. Toutes les données affichées sont soumises à la condition d'utilisation équitable des données géographiques à des fins académiques. La liste de tous les fournisseurs de données/logiciels pertinents est la suivante : (i) création de cartes originales conformément à la section 5 des conditions d'utilisation des API de la plate-forme Microsoft Bing Maps (https://www.microsoft.com/en-us /maps/product/print-rights); (ii) affichage de cartes réalisé avec un logiciel open source, sous les licences GNU de QGIS (https://qgis.org/en/site/) et QuickMapsServices (https://github.com/nextgis/quickmapservices) ; (iii) élaboration finale des cartes réalisée avec un logiciel développé par les auteurs et disponible sur (https://bit.ly/NSR_floodplains).

Étant donné que l'ensemble de données a été compilé comme une source complète d'informations pour les archéologues plutôt que pour former spécifiquement un modèle d'apprentissage en profondeur, nous avons dû filtrer certains exemples qui ne fournissaient aucune information et pouvaient en fait nuire au processus d'apprentissage. Nous avons commencé par supprimer les 200 premiers sites par zone car ils étaient considérablement plus grands que le reste de l'ensemble de données et l'inspection visuelle a confirmé qu'ils suivent la forme de zones qui ne sont pas simplement des monticules. Le nombre 200 émerge en remarquant que ces sites ont une zone plus grande que la région carrée que nous utilisons comme entrée et pourrait donc aboutir à un masque de segmentation complètement complet qui ne serait pas très utile. Après une discussion entre data scientists et archéologues, nous avons convenu qu'il s'agissait d'une bonne solution heuristique.

De plus, nous avons filtré 684 sites qui présentaient une superficie trop petite pour être un Tell ou qui étaient désignés par les archéologues comme ayant été détruits. En particulier, le seuil de taille a été fixé à environ 1000 m2 ce qui correspond à un cercle de 30 m de diamètre. Ces très petits sites correspondent en fait à une annotation générique pour des sites connus dont la taille ou la localisation précise est inconnue.

Pour générer un ensemble d'images pour affiner notre modèle pré-formé, nous avons importé les formes susmentionnées dans QGIS, un logiciel SIG open source35 et, à l'aide d'un script Python, avons enregistré un carré de longueur L centré sur le centroïde du site qui contient uniquement des images satellite de Bing Maps (affichées directement dans l'environnement SIG via le plug-in QuickMapService qui permet d'accéder aux images fournies par divers services en ligne, dont Bing Maps). Nous avons ensuite enregistré la même image sans fond de carte mais avec les contours du site représentés sous la forme d'une forme remplie d'une couleur unie, pour servir de masques de vérité terrain.

Ainsi, lors de l'entraînement, notre réseau de neurones apprend à reproduire la forme du site à partir du terrain vérifié en ne regardant que l'image satellite RVB ; lors de l'inférence, nous pouvons détecter et délimiter de nouveaux sites dans une image d'entrée donnée s'il y en a.

Dans les premières expériences, nous avons fixé L à 1000 m, mais nous avons imaginé que l'augmentation de la taille de la zone de prédiction pourrait être bénéfique en raison de l'inclusion d'un contexte plus large. Par conséquent, nous avons également essayé d'utiliser L = 2000 m et avons obtenu des performances globales améliorées.

À partir de l'image carrée de départ, nous recadrons au hasard un carré de longueur L/2 à utiliser comme entrée. Cela garantit que le modèle n'apprend pas une représentation biaisée pour laquelle les sites apparaissent toujours au centre de l'entrée et sert en outre d'augmentation des données. Outre ce recadrage, nous augmentons également le jeu de données en appliquant une rotation et une mise en miroir aléatoires, ainsi qu'un léger décalage de la luminosité et du contraste, toutes ces opérations étant appliquées de manière différente à chaque itération d'apprentissage. Lors de l'extraction de QGIS, nous avons enregistré des images avec une résolution d'environ 1 pixel par mètre (1024 pixels pour 1000 m, le double pour le modèle avec une taille d'entrée accrue), mais les entrées ont ensuite été réduites à la moitié pour faciliter les exigences de calcul tout en ayant un faible impact sur la performance globale36.

Enfin, nous avons introduit 1155 images avec des masques vides (pas de sites à prévoir) échantillonnés à partir des emplacements suggérés par les archéologues. Il s'agit notamment des zones fortement urbanisées, des zones d'agriculture intensive, des zones sujettes aux inondations (c'est-à-dire des lacs et des bassins artificiels) et des collines et montagnes rocheuses.

Le nombre a été choisi arbitrairement, en tenant compte de la taille de chaque zone suggérée et des tuiles. Le nombre final d'images est donc de 5025. Nous avons divisé l'ensemble de données en un ensemble d'apprentissage à 90 % et un ensemble de test à 10 %, en stratifiant les images "vides" que nous avons ajoutées. 10 % de l'ensemble d'apprentissage a également été sélectionné au hasard pour être utilisé comme ensemble de validation.

Nous avons essayé d'intégrer l'imagerie CORONA comme entrée supplémentaire37, car dans le flux de travail archéologique habituel, l'imagerie historique est très utile (puisqu'elle se réfère à une situation tellement moins affectée par le développement) et se combine souvent avec les fonds de carte satellite et les cartes topographiques (mais depuis CORONA ont été utilisés ici en complément, nous n'avons pas poursuivi la détection automatique sur eux seuls et donc les sites détruits après les années 1970 ont été exclus de l'analyse). Après avoir importé les images dans QGIS, nous avons suivi la même procédure pour créer les entrées, en veillant à ce que l'opération de recadrage soit la même pour les images Bing et CORONA.

Ce projet a commencé comme une expérience pour étudier la viabilité des modèles de segmentation sémantique pré-entraînés comme outils de détection de sites. Pour cette raison, nous avons décidé de comparer des modèles open source pré-entraînés mis à disposition dans le cadre d'une bibliothèque écrite en PyTorch. La bibliothèque permet de choisir un réseau neuronal convolutif d'encodeur pour l'extraction de caractéristiques et une architecture de segmentation indépendamment, ainsi que de fournir un certain nombre de fonctions de perte différentes38.

Dans un article préliminaire précédent, nous avons expérimenté différents choix d'architecture, de codeurs et de fonctions de perte36. Nous avons comparé U-Net à MA-net, Resnet18 à Efficientnet-B3 et Dice Loss à Focal Loss. Les différences de performances étaient faibles, de l'ordre de quelques points de pourcentage au mieux, ce qui pouvait très bien s'expliquer par des fluctuations dues à l'augmentation aléatoire des données.

Néanmoins, nous avons pris le meilleur modèle qui utilise MA-net, Efficientnet-B3 et Focal Loss, entraîné pendant 20 époques. Nous avons en outre testé les effets de notre procédure de filtrage (légèrement améliorée par rapport aux travaux précédents), et avons également expérimenté l'introduction de l'imagerie CORONA et augmenté la taille d'entrée.

Nous avons également effectué un test supplémentaire sur un autre grand ensemble de données (https://www.orientlab.net/samark-land/) élaboré par le projet archéologique ouzbek-italien à Samarkand39. Compte tenu de la similitude entre le Tell mésopotamien et le Tepa ouzbek, nous avons voulu voir si le modèle était capable de détecter ces sites sans nécessiter de réentraînement supplémentaire.

L'ensemble de données comprend 2318 annotations ponctuelles classées de différentes manières, qui sont également accompagnées d'attributs liés à leur état de conservation. Nous avons sélectionné uniquement des sites classés soit Tepa soit Low Mound, avec le label Bien conservé. Le nombre final de sites finit par être de 215 : 148 Tepa et 67 Mounds. Les images réelles de l'ensemble de test ont été créées en suivant la même procédure décrite ci-dessus.

Tout d'abord, nous présentons les résultats en termes de score moyen d'intersection sur l'union (IoU) sur l'ensemble de données de test. Nous définissons les métriques comme suit : \(IoU = \frac{P\cap G}{P\cup G}\) avec P indiquant la forme prédite et G la forme de vérité terrain. IoU représente le degré de correspondance entre la forme prédite et l'annotation dans l'ensemble de données. Bien qu'il nous donne une idée de la façon dont le modèle se comporte et nous aide à sélectionner le meilleur, nous devons reconnaître qu'il n'indique pas combien de sites sont identifiés ou non, ce qui est notre objectif principal.

Le tableau 1 résume les résultats pour tous les modèles sur l'ensemble de données d'exclusion, comme décrit dans la section Méthodes. Notez que, pour chaque modèle, nous reportons un score moyen et l'écart-type associé. Cela est dû au fait que nous effectuons un recadrage aléatoire sur les images, même sur le jeu de test, et donc nous effectuons dix tests avec différents recadrages pour moyenner cet effet.

La première chose que l'on peut noter est la nette amélioration apportée par l'augmentation de la taille de l'entrée. Nous imaginons que la plus grande zone fournit plus de contexte aux prédictions et rend le modèle plus précis. Tout aussi importante est la procédure de filtrage décrite ci-dessus, qui tente de supprimer les sites petits et indétectables, ce qui entraîne une baisse des performances quelle que soit la taille d'entrée.

Enfin, l'utilisation de l'imagerie CORONA est un peu controversée. Pour la taille d'entrée plus petite, cela ne semble offrir aucun avantage (le score d'erreur inférieur se situe dans la marge d'erreur) et nous pouvons supposer que cela est dû à la faible résolution de cette imagerie. Avec des zones plus grandes, ils semblent plutôt fournir une augmentation des performances, peut-être encore une fois en raison du contexte plus large. L'examen de la prédiction a cependant révélé l'absence d'une différence marquée, ce qui signifie peut-être que l'IoU augmente tout comme le résultat de contours légèrement plus précis.

Pour évaluer davantage les résultats, nous sommes passés à la précision de détection. Tout d'abord, nous avons transformé les prédictions raster du modèle en formes vectorielles à l'aide de la bibliothèque bien connue GDAL40, puis nous avons recherché l'intersection entre les annotations du site et les prédictions. Pour obtenir des formes plus lisses, avant la conversion, nous avons d'abord appliqué un flou gaussien aux rasters de prédiction, puis avons coupé les valeurs supérieures à un certain seuil (0,5, mais le nombre peut être modifié pour un modèle plus ou moins sensible) à 1,0, tandis que tout le reste serait être réglé sur 0,0.

Cette évaluation automatique donne de bons résultats mais pas trop excitants, avec un score de précision de 62,57 % pour le modèle 5 et de 60,08 % pour le modèle 6. Un modèle capable de trouver deux sites sur trois fournirait déjà un bon point de départ pour une analyse humaine. Cependant, les archéologues doivent fournir une vérification des prédictions et différencier les cas dans lesquels le modèle commet des erreurs appropriées de ceux dans lesquels il commet des erreurs justifiables qu'un humain ferait aussi41,42,43.

Tout d'abord, il existe un nombre considérable de sites qui ne sont plus visibles sur les images satellites actuelles et qui n'ont pas été filtrés de l'ensemble de données. Cela était attendu car seulement la moitié des annotations contenaient des informations supplémentaires et encore moins contenaient des indications sur leur visibilité. Toute image d'entrée contenant uniquement des sites qui ne sont plus visibles doit être considérée comme un vrai négatif plutôt que comme un faux négatif si le modèle ne produit aucun contour.

En ce qui concerne les prédictions marquées comme fausses positives, le modèle prédit parfois un autre site à proximité, au lieu de celui qui est testé. Cela peut être considéré comme une erreur ou non selon la nature du site "raté". Dans le cas où le site manqué est l'un de ceux qui ne sont plus visibles, mais que nous détectons un site presque visible, la prédiction est en fait un Vrai Positif. D'un autre côté, le site manqué peut être celui qui est encore visible mais peut-être moins qu'un autre sur la photo. Dans cette situation, nous pourrions soit considérer à la fois un faux négatif et un vrai positif, soit simplement comme un vrai positif étant donné que, dans un scénario réel, la proximité d'autres sites entraînerait une suggestion utile en tant qu'expert humain, qui alors pouvoir tous les récupérer. Alternativement, nous pourrions éviter de considérer complètement les sites non visibles, mais la différence serait minime (précision 78,37 % et rappel 82,01 %).

Enfin, certaines prédictions étaient effectivement présentes dans les sorties mais trop faibles pour le seuil de coupure que nous avons imposé. Nous n'avons pas ajusté ces erreurs, mais elles indiquent une approche possible pour l'interaction : utiliser des prédictions comme superpositions et regarder manuellement la carte. La définition d'un seuil inférieur pourrait également résoudre le problème.

L'ajustement augmente la précision et le rappel à environ 80, donnant une idée plus objective des performances réelles du modèle.

Le tableau 2 résume les résultats de l'évaluation automatique et les valeurs ajustées après l'évaluation humaine des sites non visibles mis en évidence. Les équations suivantes définissent les métriques utilisées en termes de vrai/faux positif/négatif. Nous avons choisi l'exactitude, la précision, le rappel et le coefficient de corrélation de Matthews.

Il est intéressant de voir comment le modèle 6, qui a obtenu un score IoU plus élevé, semble en fait se détériorer maintenant. En regardant les images, il apparaît que ce modèle est un peu plus restreint et prudent, ce qui entraîne des prédictions moins positives et donc moins de faux positifs. À son tour, cela peut entraîner une IoU plus élevée car cela réduit le terme Union et, si les zones sont un peu plus précises, cela augmente même le terme Intersection. Cependant, pour des raisons de détection, nous avons besoin de la présence d'une intersection plutôt que d'une correspondance parfaite et dans cette situation, le nombre inférieur de positifs est punitif. Dans l'ensemble, la différence de précision n'est pas excessive, donc les deux modèles sont utiles et pourraient être utilisés en parallèle, mais nous devons également tenir compte de la complexité et du coût supplémentaires de l'utilisation de deux ensembles d'images d'entrée qui rendent le modèle 6 un peu lourd. Pour cette raison, nous avons continué à utiliser uniquement le modèle 5.

Nous avons conclu cette sous-section avec la figure 2, qui contient quelques exemples de l'ensemble de données de test pour afficher la qualité des sorties du modèle. Notez comment les couleurs correspondent aux valeurs de probabilité et que les zones pâles seraient coupées par le seuil de 0,5 que nous utilisons pour créer les formes vectorielles. Le modèle est très précis pour tracer les contours du site et dans certains cas (c'est-à-dire la première colonne de la Fig. 2), ceux-ci sont encore plus précis que la vérité terrain en ce qui concerne l'imagerie satellitaire actuelle.

Quelques exemples de prédictions de l'ensemble de test. Sur la gauche se trouve le masque cible superposé sur l'image d'entrée. A droite la sortie du modèle. La barre de couleur correspond à la probabilité de classification. Notez comment le modèle est capable de correspondre avec précision au contour du site. Toutes les données affichées sont soumises à la condition d'utilisation équitable des données géographiques à des fins académiques. La liste de tous les fournisseurs de données/logiciels pertinents est la suivante : (i) création de cartes originales conformément à la section 5 des conditions d'utilisation des API de la plate-forme Microsoft Bing Maps (https://www.microsoft.com/en-us /maps/product/print-rights); (ii) affichage de cartes réalisé avec un logiciel open source, sous les licences GNU de QGIS (https://qgis.org/en/site/) et QuickMapsServices (https://github.com/nextgis/quickmapservices) ; (iii) élaboration finale des cartes réalisée avec un logiciel développé par les auteurs et disponible sur (https://bit.ly/NSR_floodplains).

Après avoir évalué les performances de détection, nous avons voulu tester le modèle sur une zone rectangulaire à l'intérieur de la province non enquêtée de Maysan pour laquelle nous avons effectué une télédétection. Ce test avait pour objectif d'évaluer le nombre de faux positifs que le modèle prédirait et de donner un exemple des erreurs commises par le modèle dans un scénario opérationnel.

La zone que nous avons sélectionnée contient 20 sites présumés et s'étend sur 104 km2. La figure 3 montre la zone avec l'annotation de l'archéologue et la prédiction du modèle. Comme on peut le voir, le modèle est capable de récupérer 17 des 20 sites tout en suggérant environ 20 formes supplémentaires (ou moins, selon ce qui est considéré comme une seule instance). La plupart de ces suggestions ne sont pas utiles mais sont aussi facilement et rapidement triées par un œil expert, surtout en contexte, compte tenu de leur taille ou de leur emplacement.

Zone test de la province de Maysan (rose, ligne pointillée) avec des sites identifiés à distance par des archéologues (bleu, rempli de points) et prédictions du modèle (jaune, rempli de lignes). Les sites identifiés par l'œil averti et le modèle sont équivalents et, surtout, le modèle est capable d'ignorer les zones sans caractéristiques significatives. Toutes les données affichées sont soumises à la condition d'utilisation équitable des données géographiques à des fins académiques. La liste de tous les fournisseurs de données/logiciels pertinents est la suivante : (i) création de cartes originales conformément à la section 5 des conditions d'utilisation des API de la plate-forme Microsoft Bing Maps (https://www.microsoft.com/en-us /maps/product/print-rights); (ii) affichage de cartes réalisé avec un logiciel open source, sous les licences GNU de QGIS (https://qgis.org/en/site/) et QuickMapsServices (https://github.com/nextgis/quickmapservices) ; (iii) élaboration finale des cartes réalisée avec un logiciel développé par les auteurs et disponible sur (https://bit.ly/NSR_floodplains).

La figure 4 montre à la place une superposition produite en assemblant les différentes prédictions et en utilisant les valeurs de probabilités comme une sorte de carte thermique. Les couleurs "plus chaudes" correspondent à des probabilités plus élevées tandis que le noir indique l'absence d'un site. Notez que la palette est la même que celle de la Fig. 2, avec des couleurs violet foncé indiquant une probabilité relativement faible (moins de 0,5). La transparence est obtenue grâce à l'utilisation du filtre Overlay dans QGIS.

La couche de probabilités de prédiction de la zone de test de Maysan est visualisée comme la couche supérieure dans QGIS. Cette visualisation permet à l'utilisateur de décider où chercher au lieu de se fier à une valeur de seuil prédéfinie. Toutes les données affichées sont soumises à la condition d'utilisation équitable des données géographiques à des fins académiques. La liste de tous les fournisseurs de données/logiciels pertinents est la suivante : (i) création de cartes originales conformément à la section 5 des conditions d'utilisation des API de la plate-forme Microsoft Bing Maps (https://www.microsoft.com/en-us /maps/product/print-rights); (ii) affichage de cartes réalisé avec un logiciel open source, sous les licences GNU de QGIS (https://qgis.org/en/site/) et QuickMapsServices (https://github.com/nextgis/quickmapservices) ; (iii) élaboration finale des cartes réalisée avec un logiciel développé par les auteurs et disponible sur (https://bit.ly/NSR_floodplains).

Malheureusement, l'évaluation humaine des résultats a montré que le modèle n'est capable d'identifier correctement qu'environ 25 % à 30 % des sites de cette région, selon la manière dont les seuils sont choisis. La partie restante contient soit des sites qui sont complètement manqués, soit des sites qui sont en quelque sorte trop faiblement suggérés ou à l'intérieur d'une vaste zone qui semble dénuée de sens.

La raison de cette forte baisse de performance est très probablement due à la nature différente du paysage de la région qui, à certains endroits, semble être beaucoup plus urbanisé et présente en général plus de végétation : ainsi, tous les environnements de plaine inondable ne sont pas assez similaires pour un comparaison croisée directe. De plus, les conventions qui sous-tendent les annotations dans l'ensemble de données ouzbek pourraient ne pas être parfaitement alignées sur celles de la Mésopotamie, ce qui complique encore la situation.

Cet échec partiel doit être relativisé, car nous pensons que notre méthode peut s'appliquer à un large éventail d'environnements similaires en Asie et au-delà ayant des histoires de peuplement pluri-périodiques : la seule manière de traiter ce problème ici est celle de créer un petit ensemble de données de sites Tepa sélectionnés et effectuer un cycle supplémentaire d'apprentissage par transfert afin que le modèle puisse saisir le nouveau contexte et les caractéristiques de la région donnée.

Les résultats obtenus peuvent être considérés comme satisfaisants même si la métrique IoU, comparée à d'autres applications de segmentation sémantique, n'est pas extrêmement élevée. Lors des tests de performance de détection, cependant, nous avons constaté que le modèle est toujours capable de détecter la plupart des sites dans l'ensemble de données, ce qui nous laisse de bonnes attentes quant à son utilisation dans d'autres parties de la zone d'enquête. Cependant, comme le montre le test ouzbek, lorsqu'il s'agit de nouvelles zones avec des sites similaires mais dans un contexte différent, les performances peuvent chuter considérablement. Cette question de la transférabilité, comme on l'appelle en archéologie, est un sujet de recherche actif. Une phase de recyclage, même avec un ensemble de données plus petit, pourrait, espérons-le, résoudre le problème et des travaux futurs pourraient explorer cette direction de recherche.

Il est important de noter à quel point les métriques d'évaluation dans cette tâche semblent heurter un mur lorsqu'elles sont confrontées au fait qu'elles sont calculées par rapport à des annotations qui souvent ne sont pas homogènes et contiennent diverses étiquettes fallacieuses44. Dans notre cas, nous avons fait face au fait qu'il existe de nombreux sites qui ne sont visibles que sur certaines photographies ou cartes historiques qui font partie de l'ensemble de données, même si elles ne fournissent pas d'exemples utiles. Heureusement, le modèle semble être suffisamment robuste pour apprendre des concepts utiles et ignorer ces points de données déroutants. Un ensemble de données encore plus petit et plus propre pourrait améliorer considérablement les performances tout en réduisant la charge de calcul. Évidemment, de telles opérations de nettoyage représenteraient un investissement énorme en termes de temps et les archéologues préféreraient plutôt le passer à rechercher eux-mêmes activement des sites.

Notre modèle, cependant, ouvre la possibilité de parcourir automatiquement les zones déjà étudiées et de produire ensuite une liste de prédictions qui contrastent les annotations à examiner manuellement. Par la suite, un nouvel ensemble de données plus propre pourrait être assemblé par les archéologues et un nouveau modèle amélioré pourrait être formé. Voir Lambers et al. pour un exemple utilisant la science citoyenne45. Cette même procédure fonctionne également dans les applications à de nouvelles zones, où de nouvelles prédictions peuvent être vérifiées manuellement et ajoutées à un nouvel ensemble de données au fil du temps.

En plus de la procédure automatique, le modèle pourrait également être utilisé pour produire une superposition pour guider l'œil de l'archéologue à l'intérieur d'un logiciel SIG. Cette approche graphique permet également aux utilisateurs de comparer la superposition avec d'autres cartes qu'ils pourraient utiliser et d'utiliser leur expertise pour déduire l'existence d'un site sur la base de toutes les informations contextuelles dont ils disposent46,47. Nous n'avons essayé cette approche que sur une petite zone, comme le montre la figure 4, mais le calcul pourrait être facilement étendu pour couvrir de vastes zones, car il faut moins d'une seconde pour produire une sortie et il n'est pas nécessaire de terminer l'opération dans une fois quand même. Le seul inconvénient de cette méthode est le décalage évident à la frontière entre les différentes images d'entrée, ce qui donne à la superposition son aspect de mosaïque. En théorie, la segmentation sémantique pourrait fonctionner avec des entrées de taille arbitraire, mais cela nécessite une énorme quantité de mémoire qui pourrait ne pas être disponible. Une solution pourrait être la création de cartes de prédiction qui se chevauchent qui seraient ensuite moyennées, en échangeant du temps de calcul pour une précision accrue.

La figure 5 résume l'utilisation que nous envisageons pour le modèle que nous avons décrit, dans la lignée de solutions similaires48,49. À partir de l'ensemble de données, le modèle produit des masques de prédiction que nous pouvons manipuler par post-traitement pour obtenir soit un fichier de formes vectoriel pouvant être utilisé pour l'évaluation et la détection automatiques des sites. À ce stade, l'utilisateur a la possibilité de choisir un seuil pour couper la prédiction et l'utilisation de techniques pour lisser les formes de sortie, comme le floutage ou la mise en mémoire tampon des vecteurs. De même, la superposition de la carte peut être ajustée en sélectionnant différentes représentations graphiques directement dans le logiciel SIG. Le but dans ce cas est de repérer des sites qui pourraient ne pas être détectés par la comparaison automatique car leur probabilité est inférieure au seuil, tout en étant toujours distinguables pour un humain. Chaque fois que le modèle est utilisé, d'une manière ou d'une autre, après avoir examiné les résultats, les utilisateurs pourraient obtenir soit un nouvel ensemble d'annotations, soit une liste de sites à supprimer ou à réétiqueter. Si un tel flux de travail est utilisé par plusieurs équipes, cela pourrait également considérablement accélérer les efforts de recherche : l'utilisation de technologies ouvertes dans ce cas facilite le partage des résultats entre les groupes de recherche, ce qui pourrait grandement aider l'archéologie en tant que domaine50.

Un flux de travail humain dans la boucle basé sur notre modèle. Un modèle est formé à partir d'images annotées et fournit des masques de prédictions. Les masques peuvent être utilisés en superposition ou vectorisés. Une évaluation humaine est effectuée sur les sorties et, à son tour, un ensemble de données affiné peut être créé pour améliorer le modèle.

Les expériences avec l'imagerie CORONA suggèrent également la possibilité de combiner plus de modèles, peut-être formés avec différents fonds de carte ou une combinaison de ceux-ci, et de comparer la prédiction donnée par tous. Surtout si des images historiques sont présentes, nous pourrions nous retrouver avec un ensemble de données qui contient également des informations temporelles sur le moment où un site est visible et quand il devient indétectable. Ce dernier aspect est assez nouveau et représente une percée potentielle dans la télédétection automatisée. L'utilisation d'images stéréoscopiques pour la création de modèles d'élévation pourrait également profiter à la tâche, si la résolution est suffisante pour mettre en évidence les monticules bas que nous recherchons.

Nous avons présenté un modèle d'apprentissage en profondeur pour la détection de sites archéologiques en monticule dans la plaine inondable mésopotamienne. Le modèle a été implémenté à l'aide de modèles pré-entraînés pour la segmentation sémantique, affiné sur l'imagerie satellite et les masques des formes du site provenant d'un ensemble de données contenant près de 5000 exemples.

Le résultat de nos expérimentations est un modèle qui obtient un score IoU de 0,8154 sur le jeu de données de test et détecte les sites avec 80% de précision. Cette précision statistique est cependant ajustée pour le nombre considérable de sites qui semblent mal étiquetés car ils ne sont plus visibles sur les images satellite modernes. Bien que nous ayons nettoyé l'ensemble de données au mieux de nos capacités, de nombreux sites indétectables subsistaient. Le modèle semble cependant assez robuste.

Suite à ce résultat, nous proposons un flux de travail à adopter par les archéologues, dans lequel leurs pratiques de télédétection déjà établies sont soutenues et améliorées par l'utilisation d'un modèle comme le nôtre. Les sorties peuvent être utilisées à la fois pour une détection automatique très rapide, en étant conscient des erreurs que cela pourrait introduire, ou combinées pour générer une superposition graphique pour diriger l'attention de l'utilisateur vers certaines zones. À son tour, l'utilisation du modèle se traduira par de nouveaux fichiers de forme et annotations qui peuvent être utilisés pour recycler et améliorer le modèle, ainsi que pour permettre d'autres analyses. Les applications potentielles de cette méthode sont considérables et ne concernent pas seulement sa rapidité : elle doit plutôt être considérée comme un complément nécessaire à la photointerprétation traditionnelle d'experts, ajoutant à cette dernière dans de nombreux cas des caractéristiques du site qui peuvent passer inaperçues mais sont susceptibles de être significatif.

En plus des informations spécifiques fournies dans le document, tout le code, les données et diverses ressources sont disponibles sur GitHub (https://bit.ly/NSR_floodplains). En ce qui concerne les données géographiques, toutes les données affichées relèvent de la condition d'utilisation équitable des données géographiques à des fins académiques. La liste de tous les fournisseurs de données/logiciels concernés est la suivante : (i) création de cartes originales conformément à la section 5 des conditions d'utilisation des API de la plate-forme Microsoft Bing Maps (https://www.microsoft.com/en-us/ cartes/produit/droits d'impression) ; (ii) affichage de cartes réalisé avec un logiciel open source, sous les licences GNU de QGIS (https://qgis.org/en/site/) et QuickMapsServices (https://github.com/nextgis/quickmapservices) ; (iii) élaboration finale des cartes réalisée avec un logiciel développé par les auteurs et disponible sur (https://bit.ly/NSR_floodplains).

Verschoof-van der Vaart, WB & Landauer, J. Utilisation de CarcassonNet pour détecter et tracer automatiquement les routes creuses dans les données LiDAR des Pays-Bas. J. Cult. Héritage. 47, 143–154. https://doi.org/10.1016/j.culher.2020.10.009 (2021).

Article Google Scholar

Torrey, L. & Shavlik, J. Apprentissage par transfert. Dans Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques (eds Torrey, L. & Shavlik, J.) 242–264 (IGI Global, 2010).

Chapitre Google Scholar

Deng, J. et al. ImageNet : une base de données d'images hiérarchique à grande échelle. En 2009, Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes 248–255 (2009).

Traviglia, A., Cowley, D. & Lambers, K. Trouver un terrain d'entente : vision humaine et par ordinateur dans la prospection archéologique. AARGnews Newslett. Archéole aérienne. Rés. Groupe 53, 11–24 (2016).

Google Scholar

Palmer, R. Éditorial. AARGnews (2021).

Wilkinson, TJ, Gibson, M. & Widell, M. Modèles de paysages mésopotamiens : comment les processus à petite échelle ont contribué à la croissance des premières civilisations (Archaeopress, 2013).

Réserver Google Scholar

Adams, RM Land Behind Bagdad: A History of Settlement on the Diyala Plains (University of Chicago Press, 1965).

Google Scholar

Adams, RM Heartland of Cities: Surveys of Ancient Settlement and Land Use on the Central Floodplain of the Euphrate (University of Chicago Press, 1981).

Google Scholar

Adams, RM & Nissen, HJ La campagne d'Uruk: le cadre naturel des sociétés urbaines (University of Chicago Press, 1972).

Google Scholar

Marchetti, N. et al. La montée des paysages urbanisés en Mésopotamie : les résultats de l'enquête intégrée QADIS et l'interprétation des paysages historiques multicouches. Z. Assyriol. Vorderasiat. Archäol. 109, 214-237. https://doi.org/10.1515/za-2019-0016 (2019).

Article Google Scholar

Wilkinson, TJ Paysages archéologiques du Proche-Orient (University of Arizona Press, 2003).

Réserver Google Scholar

Lyons, TR & Hitchcock, RK Techniques de télédétection aérienne en archéologie (Chaco Center, 1977).

Google Scholar

Kucukkaya, AG Photogrammétrie et télédétection en archéologie. J.Quant. Spectrosc. Radiat. Transf. 88, 83–88 (2004).

Article ADS CAS Google Scholar

Karamitrou, A., Sturt, F., Bogiatzis, P. & Beresford-Jones, D. Vers l'utilisation de réseaux d'apprentissage en profondeur par intelligence artificielle pour la détection de sites archéologiques. Le surf. Topogr. Métrol. Proposition 10, 044001 (2022).

Annonces d'article Google Scholar

Hendrickx, M. et al. L'utilisation d'images stéréoscopiques prises à partir d'un microdrone pour la documentation du patrimoine - Un exemple des tumulus funéraires de Tuekta dans l'Altaï russe. J. Archéol. Sci. 38, 2968-2978 (2011).

Article Google Scholar

Küçükdemirci, M. & Sarris, A. Traitement et interprétation des données GPR basées sur des approches d'intelligence artificielle : Perspectives futures pour la prospection archéologique. Remote Sens. 14, 3377 (2022).

Annonces d'article Google Scholar

Balsi, M. et al. Étude préliminaire de site archéologique par lidar embarqué sur UAV : une étude de cas. Remote Sens. 13, 332 (2021).

Annonces d'article Google Scholar

Assaël, Y. et al. Restauration et attribution de textes anciens à l'aide de réseaux de neurones profonds. Nature 603, 280-283 (2022).

Article ADS CAS PubMed PubMed Central Google Scholar

Verschoof-van der Vaart, WB, Lambers, K., Kowalczyk, W. & Bourgeois, QP Combinaison d'apprentissage en profondeur et de classement basé sur la localisation pour la prospection archéologique à grande échelle des données LiDAR des Pays-Bas. ISPR Int. J. Geo Inf. 9, 293 (2020).

Article Google Scholar

Trèves, Ø. D., Cowley, DC & Waldeland, AU Utilisation de réseaux de neurones profonds sur des données de balayage laser aéroporté : résultats d'une étude de cas de cartographie semi-automatique de la topographie archéologique à Arran, en Écosse. Archéol. Perspective. 26, 165-175 (2019).

Article Google Scholar

Anichini, F. et al. La reconnaissance automatique des céramiques à partir d'une seule photo : L'application ArchAIDE. J. Archéol. Sci. Rep. 36, 102788 (2021).

Google Scholar

Mantovan, L. & Nanni, L. L'informatisation de l'archéologie : Enquête sur les techniques d'intelligence artificielle. Calcul SN. Sci. 1, 1–32 (2020).

Article Google Scholar

Bickler, SH L'apprentissage automatique arrive en archéologie. Adv. Archéol. Pratique. 9, 186–191 (2021).

Article Google Scholar

Guyot, A., Lennon, M., Lorho, T. & Hubert-Moy, L. Détection et segmentation combinées de structures archéologiques à partir de données LiDAR à l'aide d'une approche d'apprentissage en profondeur. J. Comput. Appl. Archéol. 4, 1 (2021).

Google Scholar

Trèves, Ø. D., Salberg, A.-B. & Pilø, LH Cartographie semi-automatique des fours à charbon de bois à partir de données de balayage laser aéroporté à l'aide d'un apprentissage en profondeur. Dans CAA2016 : Océans de données. Proc. 44e Conférence sur les applications informatiques et les méthodes quantitatives en archéologie 219–231 (Archaeopress, 2018).

Bickler, SH & Jones, B. Mise à l'échelle de l'apprentissage en profondeur pour identifier les sites de terrassement à Te Tai Tokerau, Northland, Nouvelle-Zélande. Archéologie 16, 1 (2021).

Google Scholar

Caspari, G. & Crespo, P. Réseaux de neurones convolutifs pour la détection de sites archéologiques - Trouver des tombes «princières». J. Archéol. Sci. 110, 104998 (2019).

Article Google Scholar

Orengo, HA et al. Détection automatisée de monticules archéologiques à l'aide de la classification par apprentissage automatique de données satellitaires multicapteurs et multitemporelles. Proc. Natl. Acad. Sci. 117, 18240–18250. https://doi.org/10.1073/pnas.2005583117 (2020).

Article ADS CAS PubMed PubMed Central Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-net : réseaux convolutifs pour la segmentation d'images biomédicales. Dans Conférence internationale sur l'informatique médicale et l'intervention assistée par ordinateur 234–241 (Springer, 2015).

Fan, T., Wang, G., Li, Y. & Wang, H. MA-Net : Un réseau d'attention à plusieurs échelles pour la segmentation du foie et des tumeurs. Accès IEEE 8, 179656–179665. https://doi.org/10.1109/ACCESS.2020.3025372 (2020).

Article Google Scholar

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Dans Advances in Neural Information Processing Systems (eds Vaswani, A. et al.) 5998–6008 (MIT Press, 2017).

Google Scholar

da Costa, LB et al. Segmentation sémantique profonde pour détecter les forêts plantées d'eucalyptus sur le territoire brésilien à l'aide de l'imagerie sentinelle-2. Géocarto Int. 37, 6538–6550 (2022).

Article Google Scholar

Li, R. et al. Réseau multiattention pour la segmentation sémantique d'images de télédétection à résolution fine. IEEE Trans. Géosci. Remote Sens. 60, 1–13 (2021).

Google Scholar

Roccetti, M. et al. Potentiel et limites de la conception d'un modèle d'apprentissage en profondeur pour la découverte de nouveaux sites archéologiques : un cas avec la plaine inondable mésopotamienne. Dans Proc. 6e Conférence internationale EAI sur les objets intelligents et les technologies pour le bien social 216–221 (Association for Computing Machinery, 2020).

Équipe de développement QGIS. Système d'information géographique QGIS (Association QGIS, 2022).

Google Scholar

Casini, L., Orrù, V., Roccetti, M. & Marchetti, N. Quand les machines trouvent des sites pour les archéologues : Une étude préliminaire avec segmentation sémantique appliquée sur l'imagerie satellitaire de la plaine inondable mésopotamienne. Dans Proc. Conférence ACM 2022 sur les technologies de l'information pour le bien social 378–383 (2022).

Casana, J. & Cothren, J. Le projet d'atlas CORONA : Orthorectification de l'imagerie satellite CORONA et exploration archéologique à l'échelle régionale au Proche-Orient. Dans Mapping Archaeological Landscapes from Space (eds Comer, DC & Harrower, MJ) 33–43 (Springer, 2013).

Chapitre Google Scholar

Iakubovskii, P. Modèles de segmentation pytorch. Référentiel GitHub (2019).

Mantellini, S. & Berdimuradov, AE Évaluation de l'impact humain sur le paysage archéologique de Samarkand (Ouzbékistan) : une évaluation diachronique du district de Taylak par télédétection, enquête de terrain et connaissances locales. Archéol. Rés. Asie 20, 100143. https://doi.org/10.1016/j.ara.2019.100143 (2019).

Article Google Scholar

Contributeurs GDAL/OGR. Bibliothèque de logiciels d'abstraction de données géospatiales GDAL/OGR (Open Source Geospatial Foundation, 2022).

Google Scholar

Baeza-Yates, R. & Estévez-Almenzar, M. La pertinence des erreurs non humaines dans l'apprentissage automatique. In EBeM'22: Workshop on AI Evaluation Beyond Metrics (2022).

Cowley, DC Avec le nouveau, avec l'ancien ? Auto-extraction pour l'archéologie par télédétection. Dans Télédétection de l'océan, des glaces de mer, des eaux côtières et des grandes régions aquatiques 2012 37–45 (SPIE, 2012).

Gallwey, J., Eyre, M., Tonkins, M. & Coggan, J. Ramener le LiDAR lunaire sur terre : Cartographier notre patrimoine industriel grâce à un apprentissage par transfert en profondeur. Remote Sens. 11, 1994. https://doi.org/10.3390/rs11171994 (2019).

Annonces d'article Google Scholar

Fiorucci, M. et al. Apprentissage en profondeur pour la détection d'objets archéologiques sur LiDAR : nouvelles mesures d'évaluation et perspectives. Remote Sens. 14, 1694. https://doi.org/10.3390/rs14071694 (2022).

Annonces d'article Google Scholar

Lambers, K., Verschoof-van der Vaart, WB & Bourgeois, QPJ Intégration de la télédétection, de l'apprentissage automatique et de la science citoyenne dans la prospection archéologique néerlandaise. Remote Sens. 11, 794. https://doi.org/10.3390/rs11070794 (2019).

Annonces d'article Google Scholar

Verschoof-van der Vaart, WB Learning to Look at LiDAR : Combining CNN-Based Object Detection and GIS for Archaeological Prospection in Remote-Sensed Data (Université de Leiden, 2022).

Google Scholar

Verschoof-van der Vaart, WB & Lambers, K. Application de la détection automatisée d'objets dans la pratique archéologique : une étude de cas dans le sud des Pays-Bas. Archéol. Perspective. 29, 15–31. https://doi.org/10.1002/arp.1833 (2022).

Article Google Scholar

Herfort, B. et al. Cartographier les établissements humains avec une plus grande précision et moins d'efforts bénévoles en combinant le crowdsourcing et l'apprentissage en profondeur. Remote Sens. 11, 1799. https://doi.org/10.3390/rs11151799 (2019).

Annonces d'article Google Scholar

Ponti, M. & Seredko, A. Intégration de l'apprentissage humain-machine et répartition des tâches dans la science citoyenne. Humanité. Soc. Sci. Commun. 9, 1–15. https://doi.org/10.1057/s41599-022-01049-z (2022).

Article Google Scholar

Marchetti, N. et al. NÉARCHOS. Science ouverte archéologique en réseau : Progrès de l'archéologie grâce à l'analyse de terrain et au partage de la communauté scientifique. J. Archéol. Rés. 26, 447–469 (2018).

Article Google Scholar

Télécharger les références

Le financement a été fourni par la Commission européenne (CSOLA/2016/382-631), la Fondation Volkswagen (projet Kalam) et l'Université de Toronto (projet CRANE 2.0).

Département d'informatique et d'ingénierie, Université de Bologne, Bologne, Italie

Luca Casini, Andrea Montanucci et Marco Roccetti

Département d'histoire et des cultures, Université de Bologne, Bologne, Italie

Nicolò Marchetti & Valentina Orrù

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

LC a écrit le manuscrit, conçu et exécuté les expériences avec AM ; VO a fourni l'ensemble de données et l'évaluation humaine ; NM et MR ont supervisé l'étude et révisé le manuscrit.

Correspondance à Marco Roccetti.

Nicolò Marchetti a été financé par les projets suivants : (i) le projet "EDUU—Education and Cultural Heritage Enhancement for Social Cohesion in Iraq", financé par EuropeAid (CSOLA/2016/382–631), www.eduu.unibo.it , dans le cadre duquel le projet FloodPlains a été développé, https://floodplains.orientlab.net/ ; (ii) le projet « KALAM. Analyse, protection et développement des paysages archéologiques en Irak et en Ouzbékistan grâce aux TIC et aux approches communautaires », financé par la Fondation Volkswagen, www.kalam.unibo.it ; (iii) le projet CRANE 2.0 de l'Université de Toronto, qui a fourni les serveurs géospatiaux sur lesquels fonctionne FloodPlains. Tous les autres auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Casini, L., Marchetti, N., Montanucci, A. et al. Un flux de travail de collaboration homme-IA pour la détection de sites archéologiques. Sci Rep 13, 8699 (2023). https://doi.org/10.1038/s41598-023-36015-5

Télécharger la citation

Reçu : 09 mars 2023

Accepté : 27 mai 2023

Publié: 29 mai 2023

DOI : https://doi.org/10.1038/s41598-023-36015-5

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.