banner
Heim / Blog / Einblick in das maschinelle Lernmodell von ProPublica für zukünftige Ebola-Ausbrüche – ProPublica
Blog

Einblick in das maschinelle Lernmodell von ProPublica für zukünftige Ebola-Ausbrüche – ProPublica

Aug 27, 2023Aug 27, 2023

Die nächste Pandemie ist nur eine Waldrodung. Wir tun nicht genug, um zu verhindern, dass Viren von der Tierwelt auf den Menschen übergreifen.

ProPublica ist eine gemeinnützige Nachrichtenredaktion, die Machtmissbrauch untersucht. Melden Sie sich an, um unsere größten Geschichten zu erhalten, sobald sie veröffentlicht werden.

Abonnieren Sie den Big Story-Newsletter.

Danke für's Registrieren.Wenn Ihnen unsere Geschichten gefallen, könnten Sie sie vielleicht mit einem Freund teilen?

Weitere Möglichkeiten, auf dem Laufenden zu bleiben, finden Sie in den restlichen Newslettern.

Faktenbasierter, unabhängiger Journalismus ist heute mehr denn je gefragt.

Dieses Jahr haben wir bei ProPublica Computermodellierung mit traditioneller Berichterstattung kombiniert, um Fragen rund um Virusausbrüche zu untersuchen: Was verursacht sie und was kann getan werden, um den nächsten großen Ausbruch zu verhindern?

Eine der am meisten gefürchteten Krankheiten ist Ebola, die etwa die Hälfte der infizierten Menschen tötet und nachweislich auch in unerwarteten Ländern wie Guinea auftreten kann. Dort sprang das Virus 2013 von einem Wildtier auf einen Menschen über und löste eine Epidemie aus, die letztlich weltweit 11.000 Todesopfer forderte.

Forscher, die untersuchen, wie Ausbrüche entstehen, haben herausgefunden, dass die Abholzung von Wäldern die Wahrscheinlichkeit erhöhen kann, dass Krankheitserreger von der Tierwelt auf den Menschen übertragen werden. Jesús Olivero, Professor in der Abteilung für Tierbiologie an der Universität Malaga, Spanien, stellte fest, dass sieben Ebola-Ausbrüche, darunter der, der in Meliandou, Guinea, begann, in erheblichem Zusammenhang mit Waldverlusten standen. Wir fanden heraus, dass an rund fünf dieser Ausbruchsorte Wälder in einem verräterischen Muster abgeholzt worden waren, was die Wahrscheinlichkeit erhöhte, dass Menschen den Raum mit Tieren teilen könnten, die die Krankheit beherbergen könnten.

Wir fragten uns: Könnten wir das, was wir über diese Orte gelernt haben, nutzen, um Orte zu finden, an denen es noch keine Ausbrüche gegeben hat, die aber von einem Ausbruch bedroht sein könnten? Gab es Orte, an denen Ebola auftreten könnte, die denen von Meliandou im Jahr 2013 sehr ähnlich waren?

Mit Hilfe von Epidemiologen und Waldverlustexperten sowie einer der datenwissenschaftlichen Beraterinnen von ProPublica, Heather Lynch, Professorin für Ökologie und Evolution an der Stony Brook University, haben wir ein maschinelles Lernmodell entwickelt, das Orte erkennen soll, die auffallende Ähnlichkeit mit Orten aufweisen die Ausbrüche erlebt hatte.

NIGERIA

DEMOKRATISCH

REP. AUS KONGO

Atlantischer Ozean

Alle Modelkandidaten

Gekennzeichnete Kandidaten

Das Ergebnis? Aus einer Zufallsstichprobe von fast 1.000 Standorten in 17 Ländern identifizierte das Modell von ProPublica 51 Gebiete, die im Jahr 2021 (dem letzten Jahr, in dem zum Zeitpunkt unserer Analyse Satellitenbilddaten zum Waldverlust verfügbar waren) Orten sehr ähnlich sahen hatte durch Waldveränderungen ausgelöste Ausbrüche erlebt.

Diese Orte lagen in Waldgebieten in Afrika, in denen Wildtiere leben, von denen angenommen wird, dass sie Ebola übertragen. in dem es kürzlich zu einer umfassenden Waldfragmentierung kam (d. h. zur Abholzung von Wäldern in vielen kleinen, unzusammenhängenden Gebieten); und die über eine Bevölkerungsbasis verfügen, die einen Ausbruch aufrechterhalten könnte, falls einer auftritt. Zu unserer Überraschung befanden sich 27 der Standorte in Nigeria, wo es noch nie zu einem Ebola-Ausbruch gekommen ist.

Nach Durchsicht unserer Ergebnisse bezeichnete eine der von uns konsultierten Forscher, Christina Faust, wissenschaftliche Mitarbeiterin an der Universität Glasgow, Schottland, die Analyse angesichts der vielen offenen Fragen zur Entstehung von Ebola als „beste Risikoschätzung“.

„Sie haben eindeutig ökologische Merkmale identifiziert, die an allen Spillover-Standorten einheitlich sind“, sagte Faust. „Und diese ökologischen Bedingungen und menschlichen Bedingungen tauchen an anderen Orten auf. Und da wir nicht so viel über die Reservoirs wissen, denke ich, dass dies unsere beste Möglichkeit ist, eine Risikoanalyse durchzuführen.“

Dieses Modell wurde aus einer früheren Analyse entwickelt, die wir im Februar veröffentlicht haben. Mithilfe von Satellitenbildern und epidemiologischen Modellen haben wir gezeigt, dass in Dörfern, in denen früher fünf Ebola-Ausbrüche aufgetreten sind, heute ein größeres Risiko besteht, dass es zu einem Übergreifen kommt, darunter Meliandou in Guinea, wo der schlimmste Ebola-Ausbruch in der Geschichte stattfand.

An fünf Orten, an denen es zu Ausbrüchen kam, fanden wir ein charakteristisches Muster in der Art und Weise, wie Wälder im Laufe der Zeit erodierten. Auf der höchsten Fragmentierungsstufe sind die Bereiche, in denen Menschen und virusübertragende Tiere interagieren könnten, die sogenannten „Mischungszonen“, am größten und das Risiko ist am höchsten. Aber nachdem der Wald durch menschliche Aktivitäten so stark erodiert ist, dass er keine Wildtiere mehr aufnehmen kann, nimmt das Risiko ab.

Diese Analyse konzentrierte sich auf die von Olivero geleitete Forschung und ein von Faust und ihren Kollegen erstelltes epidemiologisches Modell, das verfolgte, wie sich das Spillover-Risiko verändert, wenn die Wälder zunehmend fragmentiert werden. Aber es gab auch andere interessante Forschungsergebnisse zum Zusammenhang zwischen Landnutzung und Ebola-Übertragung, die unsere Aufmerksamkeit erregten.

In einer Arbeit eines Teams unter der Leitung von Maria Rulli am Politecnico di Milano, Italien, wurde ein Zusammenhang zwischen der zunehmenden Waldfragmentierung im Laufe der Zeit und Ebola-Ausbrüchen festgestellt. Wir sind auf ein paar andere Artikel gestoßen, die darlegen, wo Ebola bei Wildtieren wahrscheinlich vorkommt, darunter auch einen von Olivero selbst.

Im Rahmen des ersten Projekts haben wir aus Satellitenbildern einen Datensatz ökologischer Merkmale erstellt. Wir waren neugierig, ob einige der Faktoren, wie die Anzahl der Waldgebiete oder der Anteil der Mischzonen um diese Gebiete herum, zusätzliches Aufschluss darüber geben könnten, wie anfällig ein Standort für die Ausbreitung von Krankheiten sein könnte.

Monate später fragten wir uns, ob wir die 23 Umwelt- und Bevölkerungsmerkmale und das, was wir aus der Arbeit von Olivero, Faust und Rulli gelernt haben, in einem einzigen Modell kombinieren könnten? Könnte ein solches Modell neue Erkenntnisse über die Bedingungen im Zusammenhang mit Waldveränderungen liefern, die es Ebola ermöglichen, vom Tier auf den Menschen überzuspringen?

Auf Anraten von Lynch, unserem wissenschaftlichen Berater, suchten wir zunächst nach klaren Mustern oder Clustern zwischen den Merkmalen.

Aber nachdem ich viele kleine Streudiagramme angeschaut hatte, fiel nichts auf. Dies kam nicht ganz unerwartet, da wir nur sieben Ausbrüche zum Vergleich hatten. Wenn die Anzahl der Merkmale die Anzahl der Ereignisse, an denen Sie interessiert sind, bei weitem übersteigt, kann es schwierig sein, klare Zusammenhänge herauszufinden. Also schlug Lynch etwas direkt aus ihrem eigenen Forschungsbuch vor: Entscheidungsbäume und Zufallswälder.

Entscheidungsbäume, erklärte Lynch, sind Algorithmen für maschinelles Lernen, die Ketten binärer Entscheidungen erstellen, um dabei zu helfen, Gruppen voneinander zu unterscheiden. Wir hofften, dass sie uns helfen könnten, Orte zu finden, die den Orten, an denen es zu Ebola-Ausbrüchen gekommen war, sehr ähnlich sahen. Diese Bäume – nicht zu verwechseln mit den Laubbäumen in unseren Walddaten – sind nützlich, weil sie Daten basierend auf Kombinationen von Merkmalen sortieren und gruppieren können, die bei der Einzelbetrachtung möglicherweise nicht offensichtlich sind, und potenzielle Übereinstimmungen kennzeichnen.

Mithilfe von Entscheidungsbäumen konnten wir herausfinden, welche Populations- und Waldmerkmale die Unterschiede zwischen den Standorten, an denen wir interessiert sind, und allen anderen am besten erklären.

Standorttyp

wir interessieren uns für

Andere Arten von Standorten

Standorttyp

wir interessieren uns für

Andere Arten von Standorten

Hier ist ein Beispiel eines von unserem Modell generierten Entscheidungsbaums.

Hat die Waldfragmentierung um mehr als 23 Prozentpunkte zugenommen?

Wenn nicht, fahren Sie mit der nächsten Entscheidung fort

Wenn ja, markieren Sie den Standort

Hat sich die Zahl der Waldflächen um mehr als 440 erhöht?

Wenn ja, verwerfen Sie den Standort

Wenn nicht, fahren Sie fort

Lag die Gesamtwaldfläche im Jahr 2019 unter 123.147 Hektar?

Wenn nicht, fahren Sie fort

Wenn ja, verwerfen Sie den Standort

Betrug die Gesamtwaldfläche im Jahr 2021 mehr als 123.451 Hektar?

Wenn ja, verwerfen Sie den Standort

Wenn nicht, markieren Sie den Standort

Hat die Waldfragmentierung um mehr als 23 Prozentpunkte zugenommen?

Wenn ja, markieren Sie den Standort

Wenn nicht, fahren Sie mit der nächsten Entscheidung fort

Hat sich die Zahl der Waldflächen um mehr als 440 erhöht?

Wenn nicht, fahren Sie fort

Wenn ja, verwerfen Sie den Standort

Lag die Gesamtwaldfläche im Jahr 2019 unter 123.147 Hektar?

Wenn ja, verwerfen Sie den Standort

Wenn nicht, fahren Sie fort

Betrug die Gesamtwaldfläche im Jahr 2021 mehr als 123.451 Hektar?

Wenn ja, verwerfen Sie den Standort

Wenn nicht, markieren Sie den Standort

Am wichtigsten ist, dass sie leicht zu verstehen sind. Im Gegensatz zu vielen Modellen des maschinellen Lernens ist es einfach, einen Entscheidungsbaum zu öffnen und die bei jedem Schritt getroffenen Entscheidungen zu untersuchen. Aber einfach bedeutet nicht einfach. Viele Entscheidungsbäume mit jeweils zufälligen, geringfügigen Unterschieden können zu einer sogenannten Zufallsstruktur kombiniert werden, die die Ergebnisse mehrerer Entscheidungsbäume aggregiert. Random Forests sind eine beliebte und vielseitige Technik, die in der Wissenschaft und im Journalismus weit verbreitet ist.

Computer können viele Entscheidungsbäume mit jeweils geringfügigen Unterschieden generieren. Zusammen bilden sie einen zufälligen Wald.

Jeder einzelne Standort, der durch die Mehrheit der Bäume in einem zufälligen Wald gekennzeichnet ist, wird als Standort von Interesse betrachtet.

Wir haben einen zufälligen Wald aus 1.000 Bäumen erstellt. Wenn ein Standort durch den Zufallswald gekennzeichnet wurde, wurde er als ähnlich zu Standorten eingestuft, an denen Ebola-Ausbrüche mit Waldverlust in Verbindung gebracht wurden, und von uns überprüft.

Unser ultimatives Ziel war ein Modell, das herausfinden konnte, welche Merkmale an Orten, an denen es zu Ebola-Ausbrüchen kam, charakteristisch waren. Deshalb haben wir drei Datenbereiche erstellt: Ausbrüche im Zusammenhang mit Waldverlusten, Ausbrüche mit anderen Ursachen und zufällige Orte, an denen es nie zu Ausbrüchen kam.

Das Sammeln der ersten beiden Eimer war einfach: Die sieben Ebola-Ausbrüche, die Olivero und seine Mitarbeiter zuvor mit Waldverlust in Verbindung gebracht hatten, gingen in einen einzigen. Der Rest der Ausbrüche seit 2000 (dem frühesten Jahr, für das Waldverlustdaten von Hansen/Global Forest Watch verfügbar sind) ging in die andere Richtung.

Für den dritten Eimer hatten wir viele Möglichkeiten. Wir begannen mit einer Datenbank von Dörfern und Weilern in 28 Ländern. Dann fanden wir heraus, welche davon sich mit Oliveros Daten überschnitten, die kartieren, wo die Bedingungen für Wildtiere günstig sind, um Ebola zu beherbergen. Insgesamt mussten wir 11 Millionen Standorte untersuchen.

Es war nicht möglich, alle 11 Millionen abzufragen, also haben wir eine Zufallsstichprobe von 50.000 Personen gesammelt und für jede Bevölkerungsstatistik erstellt. Anschließend ermittelten wir, welche der 50.000 Standorte mindestens 100 Kilometer, etwa 62 Meilen, von den Ausbrüchen entfernt waren, die sich bereits in unseren beiden Eimern befanden. Schließlich haben wir die Stichprobe auf Dörfer und Weiler eingegrenzt, in denen die menschliche Bevölkerung im Bereich der Populationen in unseren Ausbruchsgebieten lag, da sie möglicherweise auf ähnliche Weise mit dem Wald interagieren. zum Beispiel für Brennholz oder für die Jagd. Die Populationen dürfen auch nicht zu klein sein – Spillover-Ereignisse erfordern per Definition menschliche Wirte, in die man einspringen kann.

Unser letzter Schritt bestand darin, nach Standorten zu filtern, die denen in unserem zweiten Bucket ähneln. Mit anderen Worten: Diese Standorte wiesen Eigenschaften auf, die einen Ebola-Ausbruch aufrechterhalten könnten, vielleicht sogar aufgrund eines Spillover-Ereignisses, aber aus Gründen, die nichts mit Waldverlust zu tun haben. Wir haben 21 dieser zufälligen Standorte für unseren dritten Datenkorb ausgewählt.

Für alle 35 Standorte, die wir als unsere Trainingsdaten bezeichnen, haben wir anhand verschiedener Datenquellen 23 verschiedene Merkmale zur Waldveränderung und -population berechnet.

Bei sieben Standorten, die als Trainingsdaten verwendet wurden, handelte es sich um Ausbrüche, die mit Waldverlust in Zusammenhang standen.

Die anderen Standorte ließen sich in zwei Kategorien einteilen: Ausbrüche, die nicht mit Waldverlust in Zusammenhang standen, oder Orte, an denen nie Ausbrüche registriert wurden.

7 Standorte, an denen Ausbrüche nicht mit Waldverlust verbunden waren

21 Orte, an denen nie Ausbrüche registriert wurden

21 Orte, an denen nie Ausbrüche registriert wurden

7 Standorte, an denen Ausbrüche nicht mit Waldverlust verbunden waren

Wir haben Daten zum Waldverlust aus der Hansen/Global Forest Watch-Datenbank gesammelt. Für alle Standorte haben wir eine Datenbank namens GRID3 verwendet, die Orte, an denen Menschen leben, aus Satellitenbildern extrahiert und sie in drei Typen einteilt: „bebaute Gebiete“ oder Städte, „kleine Siedlungsgebiete“ (Dörfer) und „Weiler“ (einige). Häuser oder Bauwerke). Wir haben unsere Abfrage auf „kleine Siedlungsgebiete“ und „Weiler“ beschränkt, da alle Standorte in unserem ersten Datenkorb bis auf einen diesen beiden Siedlungstypen am nächsten lagen. Da wir außerdem nach Ausstrahlungseffekten im Zusammenhang mit der Entwaldung suchten, machten wir uns am meisten Sorgen um die Menschen, die in unmittelbarer Nähe von Wäldern leben. Wir haben die Weiler oder Dörfer identifiziert, die allen bekannten Ausbrüchen seit dem Jahr 2000 am nächsten liegen. Es ist unwahrscheinlich, dass ein Gebiet anfällig für Ebola sein könnte Wenn die Günstigkeit weniger als 0,3 beträgt, haben wir unsere Auswahl an Kandidatenstandorten auf diejenigen beschränkt, deren Günstigkeit mindestens 0,3 betrug. Wir haben unsere Abfrage auch auf Standorte mit Bevölkerungsstatistiken im Bereich der sieben interessierenden Ausbrüche beschränkt: eine Mindestbevölkerung von 10, eine mittlere Bevölkerung von mindestens 10 und eine Gesamtbevölkerung von mindestens 10.000 für alle Siedlungen im Umkreis von 20 Kilometern, also etwa 12 Meile, Radius der betreffenden Siedlung. Für alle Trainingsstandorte haben wir außerdem Fragmentierungsmetriken mithilfe eines Python-Moduls namens PyLandStats berechnet, um eine Reihe von Fragmentierungs- und Kantenstatistiken sowie denselben benutzerdefinierten Kantenerkennungscode aus unserer früheren Arbeit zu generieren. Dieser Code bestimmt, wie stark die Mischzonen innerhalb eines 20-Kilometer-Radius um jede Siedlung zwischen 2000 und dem Jahr des Ausbruchs und zwischen 2000 und zwei Jahren vor dem Jahr des Ausbruchs gewachsen sind. Für die Daten im dritten Bereich, anstelle eines Ausbruchs Jahr haben wir ein zufälliges Jahr zwischen 2003 und 2020 verwendet und Daten aus dem Jahr 2021, dem aktuellsten Jahr, für das Daten verfügbar sind, für Tests reserviert.

Mit den vorliegenden Trainingsdaten machten wir uns daran, das Modell dazu zu bringen, aufschlussreiche Muster zu finden. Insbesondere wenn die Eingabedaten begrenzt sind, besteht die reale Möglichkeit, dass Modelle des maschinellen Lernens Muster finden, wo es eigentlich keine gibt. Dies wird als Überanpassung bezeichnet. Stellen Sie sich das wie einen Computer vor, der Tupfen als ein Verbinde-die-Punkte-Spiel interpretiert.

Um eine Überanpassung zu vermeiden, haben wir mehrere Zufallswaldmodelle trainiert und dabei jeweils einen Teil der Daten zurückgehalten. Dies ist eine gängige Strategie in der Ökologie, wo Daten knapp sein können und es wichtig ist, sicherzustellen, dass ein Modell nicht übermäßig von den Eigenheiten eines einzelnen Datenpunkts beeinflusst wird. In unserem Fall ist Ebola eine so seltene Krankheit, dass wir durch den Ausschluss eines von sieben Ausbrüchen in jeder Trainingsrunde feststellen konnten, ob einer von ihnen die Modelle unverhältnismäßig stark beeinträchtigte.

Die Ergebnisse jeder Trainingsrunde gaben uns auch eine bessere Vorstellung davon, welche der 23 Merkmale am wichtigsten waren. Über alle Trainingsrunden hinweg wurden nur vier Merkmale als wichtig eingestuft: die Anzahl der Waldflächen, in die der Wald unterteilt ist, die Waldfläche zu zwei Zeitpunkten und Veränderungen in der Waldfragmentierung.

Diese Reihe von Merkmalen war spannend, denn sie bestätigte, dass Schlüsselkonzepte aus dem Werk von Olivero, Faust und Rulli in einem einzigen Modell kombiniert werden konnten.

Wir haben die Implementierung zufälliger Gesamtstrukturen des Python-Pakets sklearn, RandomForestClassifier, verwendet. Unsere Strategie, in jeder Trainingsrunde einige Daten zurückzuhalten, wird allgemein als Leave-One-Out-Kreuzvalidierung (LOOCV) bezeichnet. In jeder Modelltrainings- und LOOCV-Runde wurde einer der sieben mit Waldverlust verbundenen Ausbrüche aus dem ersten Datenbereich ausgewählt und aus dem Training ausgeschlossen. Ein Zufallswald bestehend aus 1.000 Entscheidungsbäumen wurde auf die sechs verbleibenden Ausbrüche im Zusammenhang mit Waldverlust und eine Zufallsstichprobe von 24 der 28 Standorte im zweiten und dritten Datenbereich trainiert, die als „Nullsatz“-Standorte bezeichnet werden. Anschließend wurde der Wald anhand des ausgelassenen Ausbruchs und der vier verbleibenden Nullsatzpositionen validiert. Wir führten 10 Modelltrainings- und LOOCV-Runden durch. Wir führten eine Merkmalsauswahl durch und untersuchten die Bedeutung jeder Kovariate in den zufälligen Wäldern, die während des Trainings erstellt wurden das integrierte Attribut feature_importances_, das vom RandomForestClassifier-Schätzer erstellt wird. Für jeden Satz von 10 Trainingsrunden, die für jeden ausgelassenen Ausbruch durchgeführt wurden, haben wir die Kovariaten identifiziert, die in allen Runden zu den ersten fünf gehörten. Im endgültigen Modell wurde die Vereinigung dieser Kovariaten über alle Sätze von Trainingsrunden hinweg verwendet. Wir haben die Trainingsergebnisse anhand der klassischen Metriken Genauigkeit, Präzision und Empfindlichkeit bewertet. Da Ebola-Ausbrüche, die durch Spillover-Ereignisse mit Zusammenhang mit Waldverlusten verursacht werden, relativ selten sind, haben wir bei der Merkmalsauswahl der Erkennung echter positiver Ergebnisse Priorität eingeräumt.

Bevor wir uns jedoch mit diesen Ergebnissen befassten, wollten wir noch eine letzte Möglichkeit prüfen: dass das Muster, das unser Modell gefunden hatte, zu allgemein war. Sicher, vielleicht hatten wir etwas entwickelt, das eine Handvoll gemeinsamer Merkmale bei sieben Ausbrüchen identifizierte, aber vielleicht würde unser Ansatz immer Schlüsselmerkmale bei einer kleinen Anzahl von Datenpunkten finden.

Um diese Hypothese zu testen, schlug Lynch etwas vor, das interessanterweise ein „Müllmodell“ genannt wurde.

Stellen Sie sich ein Englisch-Spanisch-Wörterbuch vor, nur dass die Wortpaare alle gemischt sind – „cat“ ist mit „perro“ anstelle von „gato“ verknüpft. Die Verwendung des Wörterbuchs zur Übersetzung eines englischen Satzes würde zu einem völlig unsinnigen spanischen Satz führen.

Das Mischen unserer Daten, sagte Lynch, sollte zu ähnlich unsinnigen Klassifizierungen der dem Training vorenthaltenen Daten führen. Wenn nicht, war unser Ansatz wahrscheinlich zu allgemein. Wenn das Garbage-Modell jedoch Garbage-Klassifizierungen für die zurückgehaltenen Daten generieren würde, könnten wir eine gewisse Gewissheit darüber haben, dass alle Muster, die unser tatsächliches Modell gefunden hat, echt sind.

Wir haben es ausprobiert und – wie erwartet kam Basura heraus. Es war Zeit, das endgültige Modell zu erstellen.

Unser endgültiges Modell verwendete nur die vier wichtigsten Merkmale der fast zwei Dutzend, mit denen wir begonnen hatten: wie viel lückenhafter der Wald in den zwei Jahren vor einem Ausbruch geworden war, wie viel größer waren die Mischzonen in dieser Zeit , die Gesamtwaldmenge im Jahr des Ausbruchs und die Waldmenge zwei Jahre davor.

Schließlich war es an der Zeit, das Modell zu testen, indem man ihm völlig neue Orte zeigte und dann fragte, welche davon wie die Ausbrüche im ersten Eimer aussehen.

Aus den 50.000 zuvor zufällig ausgewählten Siedlungen haben wir eine weitere Zufallsstichprobe von etwa 1.000 Orten gezogen. Die Berechnung der Fragmentierungsstatistiken in Google Earth Engine ist zeitaufwändig – die Verarbeitung von 1.000 Standorten hat etwa eine Woche gedauert. Es wäre nicht möglich gewesen, Daten für mehr Standorte zu sammeln.

Sehen wir uns an, wie die Teststandorte in unserem Random-Forest-Modell nach einem einzigen Entscheidungsbaum sortiert werden könnten.

Nicht alle Teststandorte werden angezeigt

Zunächst überprüft der Baum Änderungen in der Fragmentierung.

An 28 von 995 Teststandorten hat die Fragmentierung um mehr als 23 Prozentpunkte zugenommen. Der Baum hat dies als interessantes Merkmal identifiziert und markiert daher diese Orte.

0

20

km

Mischzonen, die zwischen 2019 und 2021 rund um ein Dorf in Oyo, Nigeria, entstanden sind

In der Zwischenzeit durchlaufen alle verbleibenden Punkte den Baum.

Als nächstes prüft der Baum, ob die Wälder lückenhaft sind.

Während des Trainings wurde festgestellt, dass Ausbrüche im Zusammenhang mit Waldverlusten in den letzten Jahren nur eine moderate Anzahl neuer Waldflächen zur Folge hatten, im Jahr 2021 waren es weniger als 440 neue Waldflächen als im Jahr 2019.

Aber 171 der verbleibenden 967 Teststandorte hatten zu viele neue Patches und wurden daher verworfen.

Es werden nicht alle verworfenen Orte angezeigt

Zwischen 2019 und 2021 entstanden neue Flecken rund um ein Dorf in Ituri, Demokratische Republik Kongo

Nun prüft der Baum die Gesamtwaldfläche im Jahr 2019 an den verbleibenden Standorten.

Während des Trainings stellte der Baum fest, dass Standorte mit weniger als 123.147 Hektar Gesamtwaldfläche im Jahr 2019 wahrscheinlich kein Problem darstellen.

Es stellte sich heraus, dass alle 796 verbleibenden Standorte diesen Schwellenwert unterschritten haben. Sie werden ebenfalls verworfen.

Wald im Jahr 2019 um ein Dorf in Ituri, Demokratische Republik Kongo

Tatsächlich gibt es in diesem speziellen Entscheidungsbaum über die Gesamtwaldfläche im Jahr 2021 noch einen Schritt, aber es gibt keine weiteren Standorte zum Testen.

Von 995 Teststandorten wurden in diesem Entscheidungsbaum 28 Standorte markiert und 967 verworfen.

Sehen wir uns an, wie die Teststandorte in unserem Random-Forest-Modell nach einem einzigen Entscheidungsbaum sortiert werden könnten.

Nicht alle Teststandorte werden angezeigt

Zunächst überprüft der Baum Änderungen in der Fragmentierung.

An 28 von 995 Teststandorten hat die Fragmentierung um mehr als 23 Prozentpunkte zugenommen. Der Baum hat dies als interessantes Merkmal identifiziert und markiert daher diese Orte.

0

20

km

Mischzonen, die zwischen 2019 und 2021 rund um ein Dorf in Oyo, Nigeria, entstanden sind

In der Zwischenzeit durchlaufen alle verbleibenden Punkte den Baum.

Als nächstes prüft der Baum, ob die Wälder lückenhaft sind.

Während des Trainings wurde festgestellt, dass Ausbrüche im Zusammenhang mit Waldverlusten in den letzten Jahren nur eine moderate Anzahl neuer Waldflächen zur Folge hatten, im Jahr 2021 waren es weniger als 440 neue Waldflächen als im Jahr 2019.

Aber 171 der verbleibenden 967 Teststandorte hatten zu viele neue Patches und wurden daher verworfen.

Es werden nicht alle verworfenen Orte angezeigt

Zwischen 2019 und 2021 entstanden neue Flecken rund um ein Dorf in Ituri, Demokratische Republik Kongo

Nun prüft der Baum die Gesamtwaldfläche im Jahr 2019 an den verbleibenden Standorten.

Während des Trainings stellte der Baum fest, dass Standorte mit weniger als 123.147 Hektar Gesamtwaldfläche im Jahr 2019 wahrscheinlich kein Problem darstellen.

Es stellte sich heraus, dass alle 796 verbleibenden Standorte diesen Schwellenwert unterschritten haben. Sie werden ebenfalls verworfen.

Wald im Jahr 2019 um ein Dorf in Ituri, Demokratische Republik Kongo

Tatsächlich gibt es in diesem speziellen Entscheidungsbaum über die Gesamtwaldfläche im Jahr 2021 noch einen Schritt, aber es gibt keine weiteren Standorte zum Testen.

Von 995 Teststandorten wurden in diesem Entscheidungsbaum 28 Standorte markiert und 967 verworfen.

Die Stichprobe der Teststandorte hatte die gleichen Bevölkerungskriterien, die oben für die Auswahl der Standorte für den zweiten Bereich der Trainingsdaten beschrieben wurden. Allerdings haben wir unsere Teststandorte auf Orte beschränkt, an denen die von Olivero berechnete Ebola-Begünstigung zwischen 0,44 und 0,95 lag. Dies war der günstige Bereich, der für die Standorte in unseren ersten beiden Trainingsdaten-Buckets beobachtet wurde, Standorte, an denen zuvor Ebola aufgetreten ist. Wir haben die Funktionen „reducToVectors“ und „buffer“ in Google Earth Engine verwendet, um die Anzahl der Patches und die Menge der von diesen Patches generierten Kanten zu berechnen um die Standorte herum, die zwischen 2001 und 2019 und zwischen 2001 und 2021 erstellt wurden, und berechnete dann das Delta in Anzahl der Patches, Kanten und anderen Statistiken mithilfe von Postgres.

Von fast 1.000 Teststandorten haben wir festgestellt, dass 51 durchgehend gekennzeichnet waren. Etwa die Hälfte der Standorte befanden sich im Südwesten Nigerias. Sechzehn befanden sich in der Demokratischen Republik Kongo, die restlichen wenigen in Ghana, Burundi und Benin.

Angesichts der Tatsache, dass in Nigeria noch nie ein durch Spillover verursachter Ebola-Ausbruch registriert wurde, waren wir von den Ergebnissen überrascht. Eine Literaturrecherche ergab jedoch, dass es weitere Veröffentlichungen gab, die vor möglichen Ebola-Spillover-Ereignissen in Nigeria warnten. Diese Papiere sowie die gekennzeichneten Orte in der Demokratischen Republik Kongo – dem Ort des jüngsten Ebola-Ausbruchs mit bestätigten Verbindungen zu einem Spillover-Ereignis – gaben uns die Zuversicht, bei der gesamten Codierung und Modellierung eine Pause einzulegen, um einige Berichte zu erstellen.

Das könnt ihr in unserer Story nachlesen.

Mehr lesen

Caroline Chen trug zur Berichterstattung bei.

Abgelegt unter -

Irena Hwang ist Datenreporterin bei ProPublica.

Al Shaw ist stellvertretender Redakteur im News-Apps-Team von ProPublica.

Danke für's Registrieren.Weitere Möglichkeiten, auf dem Laufenden zu bleiben, finden Sie in den restlichen Newslettern.Wie wir maschinelles Lernen genutzt haben, um zu untersuchen, wo Ebola zuschlagen könnteAbgelegt unter -