Calculate landslide direct damages

tomalrussell · tomalrussell · commit c1c3227c4ea0 · 2024-11-08T11:33:10.000Z
Example command:
    snakemake
      --config slice_count=2025
      --scheduler=greedy
      --keep-going
      -c16
      results/planet-latest_filter-road-tertiary/hazard-landslide-arup/damage_EAD_and_cost_per_trigger.geoparquet
diff --git a/config/damage_curves/landslide/rail.csv b/config/damage_curves/landslide/rail.csv
@@ -0,0 +1,5 @@
+# Source:
+# Nirandjan et al. 2024 L8.5 L8.6a-b
+occurrence,damage_fraction,lower,upper
+0,0.0,0.0,0.0
+1,0.8,0.5,1.0
diff --git a/config/damage_curves/landslide/road.csv b/config/damage_curves/landslide/road.csv
@@ -0,0 +1,5 @@
+# Source:
+# Nirandjan et al. 2024 L7.3-4 L7.5, L7.12-19
+occurrence,damage_fraction,lower,upper
+0,0.0,0.0,0.0
+1,0.6,0.3,1.0
diff --git a/config/hazard_resource_locations/landslide-arup.txt b/config/hazard_resource_locations/landslide-arup.txt
@@ -0,0 +1 @@
+# See download rule for data catalogue access
diff --git a/workflow/Snakefile b/workflow/Snakefile
@@ -45,7 +45,7 @@ for network, file_path in config['network_filters'].items():
 if len(config["hazard_datasets"].keys()) != len(config["hazard_types"].keys()):
     raise ValueError(f"{config['hazard_datasets']=} not the same length as {config['hazard_types']=}")
 
-permitted_hazard_types = {"flood"}
+permitted_hazard_types = {"flood", "landslide"}
 configured_hazard_types = set(config["hazard_types"].values())
 if not configured_hazard_types.issubset(permitted_hazard_types):
     raise ValueError(f"unsupported hazard types: {permitted_hazard_types - configured_hazard_types}")
@@ -81,7 +81,7 @@ wildcard_constraints:
     CHUNK_SLUG="chunk-[\d]+",
     COST_OR_FRACTION="cost|fraction",
     DATASET="[^_/]+",
-    DIRECT_DAMAGE_TYPES="fraction_per_RP|cost_per_RP|EAD|EAD_and_cost_per_RP",
+    DIRECT_DAMAGE_TYPES="fraction_per_RP|cost_per_RP|EAD|EAD_and_cost_per_RP|EAD_and_cost_per_trigger",
     EVENTS_OR_FIXED="events|fixed",
     FILTER_SLUG="filter-[^_/]+",
     FILENAME="[^/]+",
@@ -139,6 +139,8 @@ include: "transport/flow_allocation/allocate.smk"
 include: "flood/aqueduct.smk"
 include: "flood/trim_hazard_data.smk"
 
+include: "landslide/landslide_arup.smk"
+
 include: "tropical-cyclone/IBTrACS.smk"
 include: "tropical-cyclone/IRIS.smk"
 include: "tropical-cyclone/STORM.smk"
@@ -149,6 +151,8 @@ include: "transport-flood/network_raster_intersection.smk"
 include: "transport-flood/flood_damages.smk"
 include: "transport-flood/aggregate_to_admin_area.smk"
 
+include: "transport-landslide/damages.smk"
+
 include: "power-tc/network_raster_intersection.smk"
 include: "power-tc/intersection.smk"
 include: "power-tc/exposure.smk"
diff --git a/workflow/landslide/landslide_arup.smk b/workflow/landslide/landslide_arup.smk
@@ -0,0 +1,51 @@
+
+rule download_metadata:
+    output:
+        json="{OUTPUT_DIR}/input/hazard-landslide-arup/raw/metadata.json",
+    shell:
+        """
+        wget --output-document={output.json} \
+            https://datacatalogapi.worldbank.org/ddhxext/DatasetDownload?dataset_unique_id=0037584&version_id=
+        """
+
+rule download_landslides:
+    input:
+        json="{OUTPUT_DIR}/input/hazard-landslide-arup/raw/metadata.json",
+    output:
+        "{OUTPUT_DIR}/input/hazard-landslide-arup/raw/global-landslide-hazard-map-report.pdf",
+        "{OUTPUT_DIR}/input/hazard-landslide-arup/raw/ls_eq_tiled.tif",
+        "{OUTPUT_DIR}/input/hazard-landslide-arup/raw/LS_RF_Median_1980-2018_COG.tif",
+        # Also available:
+        # "{OUTPUT_DIR}/input/hazard-landslide-arup/raw/LS_RF_Mean_1980-2018_COG.tif",
+        # "{OUTPUT_DIR}/input/hazard-landslide-arup/raw/LS_TH_COG.tif",
+    run:
+        import json
+        import os
+        import zipfile
+        from pathlib import Path
+        import requests
+
+        out_dir = os.path.dirname(input.json)
+        output_fnames = set(os.path.basename(fname) for fname in output)
+
+        with open(input.json, 'r') as fh:
+            meta = json.load(fh)
+
+        for file_meta in meta["resources"]:
+            fname = file_meta["distribution"]["file_name"]
+            url = file_meta["distribution"]["url"]
+            out_file = os.path.join(out_dir, fname)
+
+            if Path(out_file).exists() or fname not in output_fnames:
+                print("Skipped downloading", fname)
+            else:
+                print("Downloading", url)
+                r = requests.get(url)
+                with open(out_file, 'wb') as fd:
+                    for chunk in r.iter_content(chunk_size=1024):
+                        fd.write(chunk)
+
+            if ".zip" in fname:
+                print("Extracting zip", out_file)
+                with zipfile.ZipFile(out_file, 'r') as zh:
+                    zh.extractall(out_dir)
diff --git a/workflow/transport-landslide/damages.smk b/workflow/transport-landslide/damages.smk
@@ -0,0 +1,15 @@
+
+rule landslide_direct_damages:
+    input:
+        unsplit = rules.create_transport_network.output.edges,  # for pre-intersection geometry
+        exposure = rules.rasterise_osm_network.output.geoparquet,
+        rehab_cost=lambda wildcards: f"config/rehab_costs/{wildcards.FILTER_SLUG.split('-')[1]}.csv",
+        damage_curves="config/damage_curves/",
+    output:
+        split_ead_and_cost_per_trigger = "{OUTPUT_DIR}/direct_damages/{DATASET}_{FILTER_SLUG}/{HAZARD_SLUG}/split_EAD_and_cost_per_trigger/{SLICE_SLUG}.geoparquet",
+        ead_and_cost_per_trigger = "{OUTPUT_DIR}/direct_damages/{DATASET}_{FILTER_SLUG}/{HAZARD_SLUG}/EAD_and_cost_per_trigger/{SLICE_SLUG}.geoparquet",
+    params:
+        # determine the network type from the filter, e.g. road, rail
+        network_type=lambda wildcards: wildcards.FILTER_SLUG.replace('filter-', ''),
+    script:
+        "./landslide_direct_damages.py"
diff --git a/workflow/transport-landslide/landslide_direct_damages.py b/workflow/transport-landslide/landslide_direct_damages.py
@@ -0,0 +1,163 @@
+"""
+Given an exposure estimate and some damage curves, calculate the damage
+fraction for exposed assets.
+"""
+
+import logging
+import sys
+import warnings
+
+import geopandas as gpd
+import pandas as pd
+from snail.damages import PiecewiseLinearDamageCurve
+
+from open_gira import fields
+from open_gira.direct_damages import annotate_rehab_cost
+from open_gira.io import write_empty_frames, read_damage_curves, read_rehab_costs
+
+
+if __name__ == "__main__":
+
+    try:
+        unsplit_path: str = snakemake.input["unsplit"]
+        exposure_path: str = snakemake.input["exposure"]
+        rehabilitation_costs_path: str = snakemake.input["rehab_cost"]
+        damage_curves_dir: str = snakemake.input["damage_curves"]
+        split_ead_and_cost_per_trigger_path: str = snakemake.output[
+            "split_ead_and_cost_per_trigger"
+        ]
+        ead_and_cost_per_trigger_path: str = snakemake.output[
+            "ead_and_cost_per_trigger"
+        ]
+        network_type: str = snakemake.params["network_type"].split("-")[0]
+    except NameError:
+        raise ValueError("Must be run via snakemake.")
+
+    OUTPUT_FILE_PATHS: tuple[str] = (
+        split_ead_and_cost_per_trigger_path,
+        ead_and_cost_per_trigger_path,
+    )
+    HAZARD_TYPE = "landslide"
+
+    logging.basicConfig(
+        format="%(asctime)s %(process)d %(filename)s %(message)s", level=logging.INFO
+    )
+
+    # Ignore geopandas parquet implementation warnings
+    # NB though that .geoparquet is not the format to use for archiving.
+    warnings.filterwarnings("ignore", message=".*initial implementation of Parquet.*")
+
+    # load curves first so if we fail here, we've failed early
+    # and we don't try and load the (potentially large) exposure file
+    damage_curves_all = read_damage_curves(
+        damage_curves_dir, HAZARD_TYPE, set((network_type,))
+    )
+    damage_curve_data = damage_curves_all[network_type]
+    assert (
+        "occurrence" in damage_curve_data.columns
+    ), "Expected 'occurrence' column in landslide damage curve"
+
+    # Parse damage curve data into dict of DamageCurve objects
+    damage_curves = {}
+    for ratio_col in [c for c in damage_curve_data.columns if c != "occurrence"]:
+        damage_curves[f"{network_type}_{ratio_col}"] = PiecewiseLinearDamageCurve(
+            damage_curve_data[["occurrence", ratio_col]].rename(
+                columns={"occurrence": "intensity", ratio_col: "damage"}
+            )
+        )
+    logging.info(f"Available damage curves: {damage_curves.keys()}")
+
+    logging.info("Reading exposure (network/raster intersection) data")
+    exposure: gpd.GeoDataFrame = gpd.read_parquet(exposure_path)
+    logging.info(f"{exposure.shape=}")
+
+    if exposure.empty:
+        logging.info("No data in geometry column, writing empty files.")
+
+        # snakemake requires that output files exist, even if empty
+        for path in OUTPUT_FILE_PATHS:
+            write_empty_frames(path)
+        sys.exit(0)  # exit gracefully so snakemake will continue
+
+    logging.info("Annotate network with rehabilitation costs")
+    rehab_cost = read_rehab_costs(rehabilitation_costs_path)
+    exposure = annotate_rehab_cost(exposure, network_type, rehab_cost)
+
+    # column groupings for data selection
+    initial_hazard_columns = [
+        col for col in exposure.columns if col.startswith(fields.HAZARD_PREFIX)
+    ]
+    exposure[f"{fields.HAZARD_PREFIX}_{HAZARD_TYPE}_sum"] = exposure[
+        initial_hazard_columns
+    ].sum(axis=1)
+
+    hazard_columns = [
+        col for col in exposure.columns if col.startswith(fields.HAZARD_PREFIX)
+    ]
+    non_hazard_columns = list(set(exposure.columns) - set(hazard_columns))
+
+    #############################
+    # EXPECTED ANNUAL DAMAGE COST
+    #############################
+    direct_damages = {}
+    for hazard_probability_column in hazard_columns:
+        # hazard maps give probability of occurrence
+        hazard_probability = exposure[hazard_probability_column]
+        # any non-zero probability of landslide has an "occurrence" value of 1.0
+        exposure_intensity = (hazard_probability > 0).astype("float")
+        for damage_curve_key, damage_curve in damage_curves.items():
+            # damage curves are step functions based on 0-1 occurrence
+            damage_fraction = damage_curve.damage_fraction(exposure_intensity)
+            # damage cost is calculated directly from damage fraction
+            damage_cost = damage_fraction * exposure[fields.REHAB_COST]
+            # and so expected damage is (exposed value * damage fraction * probability of occurrence)
+            expected_damage = damage_cost * hazard_probability
+            direct_damages[f"{hazard_probability_column}__{damage_curve_key}_EAD"] = (
+                expected_damage
+            )
+            direct_damages[
+                f"{hazard_probability_column}__{damage_curve_key}_damage_cost"
+            ] = damage_cost
+
+    direct_damages = pd.DataFrame(direct_damages)
+    split_ead_and_cost_per_trigger = pd.concat(
+        [exposure[non_hazard_columns], direct_damages], axis=1
+    )
+    grouped_direct_damages = (
+        pd.concat([exposure[["id"]], direct_damages], axis=1).groupby("id").sum()
+    )
+
+    #########################################
+    # JOINING, VALIDATION AND SERIALIZATION #
+    #########################################
+
+    logging.info("Reading raw network data for unsplit geometry")
+    unsplit: gpd.GeoDataFrame = gpd.read_parquet(unsplit_path)
+    logging.info(f"{unsplit.shape=}")
+
+    # lose columns like "cell_indices" or rastered length measures that are specific to _rastered_ edges
+    non_hazard_output_columns = list(set(non_hazard_columns) & set(unsplit.columns))
+    unsplit_subset = unsplit[non_hazard_output_columns].set_index("id", drop=False)
+
+    # rejoin direct damage cost estimates with geometry and metadata columns and write to disk
+    # join on 'right' / grouped_direct_damages index to only keep rows we have damages for
+    ead_and_cost_per_trigger = unsplit_subset.join(
+        grouped_direct_damages, validate="one_to_one", how="right"
+    )
+    # we may not have calculated damages for every possible asset_type
+    assert len(ead_and_cost_per_trigger) <= len(unsplit_subset)
+    assert "id" in ead_and_cost_per_trigger.columns
+
+    logging.info(
+        f"Writing out {split_ead_and_cost_per_trigger.shape=} "
+        "(per unified geometry, hazard RP map and hazard map (integrated RP))"
+    )
+    split_ead_and_cost_per_trigger.to_parquet(split_ead_and_cost_per_trigger_path)
+
+    logging.info(
+        f"Writing out {ead_and_cost_per_trigger.shape=} "
+        "(per unified geometry, hazard RP map and hazard map (integrated RP))"
+    )
+    ead_and_cost_per_trigger.to_parquet(ead_and_cost_per_trigger_path)
+
+    logging.info("Done calculating direct damages")

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+# See download rule for data catalogue access`