scannet dataset can pick the number of classes to use and referring e… (

#388) * scannet dataset can pick the number of classes to use and referring expressions respect this choice * change default to allow eval * remove comment --------- Co-authored-by: Sasha Sax <asax@stanford.edu>
facebookresearch · mukulkhanna · Jul 17, 2023 · Jul 17, 2023 · Jul 18, 2023 · Jul 18, 2023
commit 9f2f33338b8a4b6d9211bec60ce1675d2e0ede7f
diff --git a/projects/scannet_offline_eval/configs/dataset/scannet.yaml b/projects/scannet_offline_eval/configs/dataset/scannet.yaml
@@ -12,4 +12,5 @@ referit3d_config:
   _target_: home_robot.datasets.scannet.ReferIt3dDataConfig
 scanrefer_config:
   _target_: home_robot.datasets.scannet.ScanReferDataConfig
-show_load_progress: False
+show_load_progress: False
+n_classes: 100
diff --git a/projects/scannet_offline_eval/configs/model/instancemap3d_top_down.yaml b/projects/scannet_offline_eval/configs/model/instancemap3d_top_down.yaml
@@ -5,6 +5,4 @@ defaults:
 
 _target_: build_sparse_voxel_map.SparseVoxelMapAgent
 device: 'cuda:0'
-global_nms_thresh: 0.3
-instance_box_compression_resolution: 0.01
-instance_box_compression_drop_prop: 0.2
+
diff --git a/projects/scannet_offline_eval/configs/model/voxel_map/default.yaml b/projects/scannet_offline_eval/configs/model/voxel_map/default.yaml
@@ -9,3 +9,6 @@ instance_memory_kwargs:
     instance_view_score_aggregation_mode: 'max'
     overlap_eps: 1e-6
     min_pixels_for_instance_view: 100
+    global_box_nms_thresh: 0.3
+    instance_box_compression_resolution: 0.01
+    instance_box_compression_drop_prop: 0.2
diff --git a/src/home_robot/home_robot/datasets/scannet/__init__.py b/src/home_robot/home_robot/datasets/scannet/__init__.py
@@ -4,5 +4,7 @@
 # LICENSE file in the root directory of this source tree.
 
 from .referit3d_data import ReferIt3dDataConfig
+from .scannet_constants import CLASS_ID_TO_NAME
+from .scannet_constants import NUM_CLASSES as NUM_CLASSES_LONG
 from .scannet_dataset import ScanNetDataset
 from .scanrefer_data import ScanReferDataConfig
diff --git a/src/home_robot/home_robot/datasets/scannet/data/load_scannet_data.py b/src/home_robot/home_robot/datasets/scannet/data/load_scannet_data.py
@@ -32,7 +32,6 @@
     # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
     # SOFTWARE.
 """
-
 import argparse
 import inspect
 import json
@@ -53,9 +52,9 @@ def read_aggregation(filename):
         data = json.load(f)
         num_objects = len(data["segGroups"])
         for i in range(num_objects):
-            object_id = (
-                data["segGroups"][i]["objectId"] + 1
-            )  # instance ids should be 1-indexed
+            object_id = data["segGroups"][i][
+                "objectId"
+            ]  # + 1  # instance ids should be 1-indexed
             label = data["segGroups"][i]["label"]
             segs = data["segGroups"][i]["segments"]
             object_id_to_segs[object_id] = segs
@@ -140,7 +139,7 @@ def export(
     """
 
     label_map = scannet_utils.read_label_mapping(
-        label_map_file, label_from="raw_category", label_to="nyu40id"
+        label_map_file, label_from="raw_category", label_to="id"  # nyu40id
     )
     mesh_vertices = scannet_utils.read_mesh_vertices_rgb(mesh_file)
 

diff --git a/src/home_robot/home_robot/datasets/scannet/referit3d_data.py b/src/home_robot/home_robot/datasets/scannet/referit3d_data.py
@@ -27,6 +27,7 @@
 # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 # SOFTWARE.
 
+import logging
 from ast import literal_eval
 from dataclasses import dataclass
 from pathlib import Path
@@ -35,6 +36,8 @@
 import numpy as np
 import pandas as pd
 
+logger = logging.getLogger(__name__)
+
 
 @dataclass
 class ReferIt3dDataConfig:
@@ -102,7 +105,7 @@ def load_referit3d_data(
         n_original = len(referit_data)
         referit_data = referit_data[referit_data["mentions_target_class"]]
         referit_data.reset_index(drop=True, inplace=True)
-        print(
+        logger.info(
             "Dropping utterances without explicit "
             "mention to the target class {}->{}".format(n_original, len(referit_data))
         )
@@ -132,41 +135,40 @@ def load_referit3d_data(
     # train_token_lens = referit_data.tokens[is_train].apply(lambda x: len(x))
     train_token_lens = referit_data.tokens.apply(lambda x: len(x))
     if len(train_token_lens) == 0:
-        print(f"No NR3D expressions found for scenes {scans_split['train']}")
+        logger.info(f"No NR3D expressions found for scenes {scans_split['train']}")
     else:
-        print(
-            "{}-th percentile of token length for remaining (training) data"
-            " is: {:.1f}".format(95, np.percentile(train_token_lens, 95))
+        pctile = 95
+        logger.info(
+            f"{pctile}-th percentile of token length for remaining (training) data"
+            + " is: {np.percentile(train_token_lens, 95):.1f}"
         )
     n_original = len(referit_data)
     referit_data = referit_data[
         referit_data.tokens.apply(lambda x: len(x) <= max_seq_len)
     ]
     referit_data.reset_index(drop=True, inplace=True)
-    print(
-        "Dropping utterances with more than {} tokens, {}->{}".format(
-            max_seq_len, n_original, len(referit_data)
-        )
+    logger.info(
+        f"Dropping utterances with more than {max_seq_len} tokens, {n_original}->{len(referit_data)}"
     )
 
     # do this last, so that all the previous actions remain unchanged
     if sr3d_csv_fpath is not None:
-        print("Adding Sr3D as augmentation.")
+        logger.info("Adding Sr3D as augmentation.")
         sr3d = pd.read_csv(sr3d_csv_fpath)
         sr3d.tokens = sr3d["tokens"].apply(literal_eval)
         is_train = sr3d.scan_id.apply(lambda x: x in scans_split["train"])
         sr3d["is_train"] = is_train
         sr3d = sr3d[is_train]
         sr3d = sr3d[referit_columns]
-        print("Dataset-size before augmentation:", len(referit_data))
+        logger.info(f"Dataset-size before augmentation: {len(referit_data)}")
         referit_data = pd.concat([referit_data, sr3d], axis=0)
         referit_data.reset_index(inplace=True, drop=True)
-        print("Dataset-size after augmentation:", len(referit_data))
+        logger.info(f"Dataset-size after augmentation: {len(referit_data)}")
 
     context_size = referit_data.stimulus_id.apply(
         lambda x: decode_stimulus_string(x)[2]
     )
-    print(
+    logger.info(
         "(mean) Random guessing among target-class test objects {:.4f}".format(
             (1 / context_size).mean()
         )

diff --git a/src/home_robot/home_robot/datasets/scannet/scannet_constants.py b/src/home_robot/home_robot/datasets/scannet/scannet_constants.py
diff --git a/src/home_robot/home_robot/datasets/scannet/scannet_dataset.py b/src/home_robot/home_robot/datasets/scannet/scannet_dataset.py
@@ -5,9 +5,11 @@
 
 import copy
 import dataclasses
+import logging
 import os
 import warnings
 from functools import partial
+from numbers import Number
 from pathlib import Path
 from typing import List, Optional, Tuple, Union
 
@@ -17,16 +19,20 @@
 import torch
 from natsort import natsorted
 from PIL import Image
+from torch import Tensor
 from tqdm import tqdm
 
 from .referit3d_data import ReferIt3dDataConfig, load_referit3d_data
 from .scannet_constants import (
+    NUM_CLASSES,
     SCANNET_DATASET_CLASS_IDS,
     SCANNET_DATASET_CLASS_LABELS,
     SCANNET_DATASET_COLOR_MAPS,
 )
 from .scanrefer_data import ScanReferDataConfig, load_scanrefer_data
 
+logger = logging.getLogger(__name__)
+
 
 class ScanNetDataset(object):
 
@@ -104,13 +110,6 @@ def __init__(
         assert (
             n_classes in SCANNET_DATASET_COLOR_MAPS
         ), f"{n_classes=} must be in {SCANNET_DATASET_COLOR_MAPS.keys()}"
-        self.METAINFO = {
-            "COLOR_MAP": SCANNET_DATASET_COLOR_MAPS[n_classes],
-            "CLASS_NAMES": SCANNET_DATASET_CLASS_LABELS[n_classes],
-            "CLASS_IDS": SCANNET_DATASET_CLASS_IDS[n_classes],
-        }
-
-        self.class_ids_ten = torch.tensor(self.METAINFO["CLASS_IDS"])
 
         # Set up directories and metadata
         assert split in ["train", "val", "test"]
@@ -120,6 +119,40 @@ def __init__(
         self.instance_2d_dir = self.root_dir / "scannet_instance_data"
         self.scan_dir = self.root_dir / "scannet_instance_data"
 
+        # Metainfo
+        self.METAINFO = {
+            "COLOR_MAP": SCANNET_DATASET_COLOR_MAPS[n_classes],
+            "CLASS_NAMES": SCANNET_DATASET_CLASS_LABELS[n_classes],
+            "CLASS_IDS": SCANNET_DATASET_CLASS_IDS[n_classes],
+        }
+        # Load class names
+        labels_pd = pd.read_csv(
+            self.root_dir / "meta_data" / "scannetv2-labels.combined.tsv",
+            sep="\t",
+            header=0,
+        )
+        labels_pd.loc[labels_pd.raw_category == "stick", ["category"]] = "object"
+        labels_pd.loc[labels_pd.category == "wardrobe ", ["category"]] = "wardrobe"
+        self.ALL_CLASS_IDS_TO_CLASS_NAMES = dict(
+            zip(labels_pd["id"], labels_pd["category"])
+        )
+        self.ALL_CLASS_NAMES_TO_CLASS_IDS = dict(
+            zip(labels_pd["category"], labels_pd["id"])
+        )
+        # self.METAINFO['CLASS_NAMES'] = [self.ALL_CLASS_IDS_TO_CLASS_NAMES[k] for k in self.METAINFO['CLASS_IDS']]
+        self.METAINFO["CLASS_IDS"] = [
+            self.ALL_CLASS_NAMES_TO_CLASS_IDS[k] for k in self.METAINFO["CLASS_NAMES"]
+        ]
+        # Create tensor lookup table
+        self.class_ids_ten = torch.tensor(self.METAINFO["CLASS_IDS"])
+        self.DROP_CLASS_VAL = -1
+        self.class_ids_lookup = make_lookup_table(
+            self.class_ids_ten,
+            self.class_ids_ten,
+            missing_key_value=self.DROP_CLASS_VAL,
+        )
+
+        # Image metadata
         self.split = split
         self.height = height
         self.width = width
@@ -133,7 +166,7 @@ def __init__(
         if keep_only_scenes is not None:
             self.scene_list = [s for s in self.scene_list if s in keep_only_scenes]
         self.scene_list = natsorted(self.scene_list)
-        print(
+        logger.info(
             f"ScanNetDataset: Keeping next {keep_only_first_k_scenes} scenes starting at idx {skip_first_k_scenes}"
         )
         self.scene_list = self.scene_list[skip_first_k_scenes:][
@@ -171,7 +204,6 @@ def __init__(
                 / f"ScanRefer_filtered_{split}.json"
             )
             self.scanrefer_data = load_scanrefer_data(json_fpath)
-        # '/private/home/ssax/home-robot/src/home_robot/home_robot/datasets/scannet/data/scanrefer/ScanRefer_filtered_val.json'
 
     def find_data(self, scan_name: str):
         # RGBD + pose
@@ -276,9 +308,10 @@ def __getitem__(self, idx: Union[str, int], show_progress: bool = False):
         boxes_aligned, box_classes, box_obj_ids = load_3d_bboxes(
             data["bboxs_aligned_path"]
         )
-        keep_boxes = (box_classes.unsqueeze(1) == self.class_ids_ten.unsqueeze(0)).any(
-            dim=1
-        )
+        # keep_boxes = (box_classes.unsqueeze(1) == self.class_ids_ten.unsqueeze(0)).any(
+        #     dim=1
+        # )
+        keep_boxes = self.class_ids_lookup[box_classes] != self.DROP_CLASS_VAL
         boxes_aligned = boxes_aligned[keep_boxes]
         box_classes = box_classes[keep_boxes]
         box_obj_ids = box_obj_ids[keep_boxes]
@@ -310,6 +343,8 @@ def __getitem__(self, idx: Union[str, int], show_progress: bool = False):
             ][column_names]
             ref_expr_df = pd.concat([scanrefer_expr, r3d_expr])
 
+        ref_expr_df = filter_ref_exp_by_class(ref_expr_df, box_obj_ids, box_classes)
+
         # Return as dict
         return dict(
             # Pose
@@ -334,17 +369,9 @@ def __len__(self):
         return len(self.scene_list)
 
 
-def maybe_show_progress(iterable, description, length, show=False):
-    if show:
-        for x in tqdm(iterable, desc=description, total=length):
-            yield x
-    else:
-        for x in iterable:
-            yield x
-
-
 ##################################
 # Load different modalities
+#################################
 def load_pose_opengl(path):
     pose = np.loadtxt(path)
     pose = np.array(pose).reshape(4, 4)
@@ -445,6 +472,105 @@ def load_3d_bboxes(path) -> Tuple[torch.Tensor, torch.Tensor]:
     return torch.stack([mins, maxs], dim=-1), labels, obj_ids
 
 
+def filter_ref_exp_by_class(
+    ref_expr_df: pd.DataFrame, box_target_ids: Tensor, box_classes: Tensor
+) -> pd.DataFrame:
+    """Keeps only referring expressions where referring expression"""
+    ref_exp_target_ids = torch.tensor(ref_expr_df.target_id.to_numpy())
+
+    # Make lookuptable of lookuptable[target_ids] -> target_class
+    max_key = max(box_target_ids.max(), ref_exp_target_ids.max()) + 1
+    ids_to_classes = make_lookup_table(
+        box_target_ids.long(), box_classes, missing_key_value=-1, key_max=max_key
+    )
+
+    # Keep referring expressions who have targets where class != -1 (i.e. where target is in box_target_ids)
+    ref_exp_classes = ids_to_classes[ref_exp_target_ids]
+    df = ref_expr_df.copy()
+    df["target_class_id"] = ref_exp_classes.cpu().numpy()
+    keep_exp = ref_exp_classes != -1
+    df = df.loc[keep_exp.cpu().numpy()]
+
+    # # Map to class name with something like:
+    # df['instance_type2'] = [class_id_to_name[class_idx] for class_idx in df['target_class_id']]
+    return df
+
+
+#############################################################
+# Utils
+#############################################################
+
+
+def maybe_show_progress(iterable, description, length, show=False):
+    if show:
+        for x in tqdm(iterable, desc=description, total=length):
+            yield x
+    else:
+        for x in iterable:
+            yield x
+
+
+def make_lookup_table(
+    keys: Tensor,
+    values: Tensor,
+    key_max: Optional[int] = None,
+    missing_key_value: Number = torch.nan,
+) -> Tensor:
+    """
+    Create a lookup table using keys and values tensors.
+
+    This function creates a 1D tensor (lookup table) using keys and values.
+    The length of the lookup table is determined by `key_max`. The `keys` tensor
+    specifies the indices in the lookup table that will be populated with the corresponding
+    values from the `values` tensor. Indices not present in `keys` will be filled with
+    `missing_key_value`.
+
+    Parameters:
+    -----------
+    keys : torch.Tensor
+        1D tensor of long integers specifying the indices in the lookup table
+        where values should be placed. Must have dtype of torch.long.
+    values : torch.Tensor
+        1D tensor containing the values to be placed in the lookup table.
+        Must have the same length as `keys`.
+    key_max : int, optional
+        The maximum key value + 1, which determines the length of the lookup table.
+        If None, it is set to the maximum value in `keys` + 1. Default is None.
+    missing_key_value : Number, optional
+        The value to fill in for missing keys in the lookup table. Default is NaN.
+
+    Returns:
+    --------
+    keys_expanded : torch.Tensor
+        The populated lookup table. The dtype will match that of `values`.
+
+    Raises:
+    -------
+    AssertionError
+        If the dtype of the `keys` is not torch.long.
+
+    Example:
+    --------
+    >>> keys = torch.tensor([1, 3, 5], dtype=torch.long)
+    >>> values = torch.tensor([10.0, 30.0, 50.0])
+    >>> make_lookup_table(keys, values)
+    tensor([nan, 10.0, nan, 30.0, nan, 50.0])
+    """
+    if key_max is None:
+        key_max = keys.max().item() + 1
+    assert (
+        keys.dtype == torch.long
+    ), f"keys must have dtype torch.long -- not {keys.dtype}"
+    keys_expanded = torch.full(
+        [key_max],
+        fill_value=missing_key_value,
+        device=values.device,
+        dtype=values.dtype,
+    )
+    keys_expanded.scatter_(dim=0, index=keys, src=values)
+    return keys_expanded
+
+
 if __name__ == "__main__":
     import open3d
 
@@ -456,7 +582,7 @@ def load_3d_bboxes(path) -> Tuple[torch.Tensor, torch.Tensor]:
     from home_robot.utils.point_cloud_torch import get_xyz_coordinates
 
     data = ScanNetDataset(
-        root_dir="/private/home/ssax/home-robot/projects/eval_scannet/scannet",
+        root_dir="./data/",
         frame_skip=30,
     )
     result = data.__getitem__(0, show_progress=True)

diff --git a/src/home_robot/home_robot/datasets/scannet/visualize_scannet.ipynb b/src/home_robot/home_robot/datasets/scannet/visualize_scannet.ipynb
@@ -22,7 +22,7 @@
     "import numpy as np\n",
     "import torch\n",
     "from tqdm import tqdm\n",
-    "\n"
+    "import pandas as pd\n"
    ]
   },
   {
@@ -31,12 +31,17 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from scannet_dataset import ScanNetDataset\n",
-    "from referit3d_data import ReferIt3dDataConfig\n",
-    "from scanrefer_data import ScanReferDataConfig\n",
+    "# from scannet_dataset import ScanNetDataset\n",
+    "# from referit3d_data import ReferIt3dDataConfig\n",
+    "# from scanrefer_data import ScanReferDataConfig\n",
+    "from pytorch3d.io import IO\n",
+    "from pytorch3d.structures import Pointclouds\n",
+    "from home_robot.datasets.scannet import ScanNetDataset, ReferIt3dDataConfig, ScanReferDataConfig, NUM_CLASSES_LONG\n",
     "data = ScanNetDataset(\n",
     "    root_dir = '/private/home/ssax/home-robot/src/home_robot/home_robot/datasets/scannet/data',\n",
     "    frame_skip = 180,\n",
+    "    n_classes=NUM_CLASSES_LONG,\n",
+    "    # n_classes=50,\n",
     "    referit3d_config = ReferIt3dDataConfig(),\n",
     "    scanrefer_config = ScanReferDataConfig(),\n",
     ")\n",
@@ -51,8 +56,37 @@
     "from pytorch3d.io import IO, load_obj, load_ply\n",
     "scene_id = scene_obs['scan_name']\n",
     "print(\"Loading GT mesh for\", scene_id)\n",
-    "verts = load_ply(data.root_dir / f'scans/{scene_id}/{scene_id}_vh_clean.ply')\n",
-    "aligned_verts = torch.cat([verts[0], torch.ones_like(verts[0][:,:1])], dim=-1) @ scene_obs['axis_align_mats'][0].T\n"
+    "# verts = load_ply(data.root_dir / f'scans/{scene_id}/{scene_id}_vh_clean.ply')\n",
+    "pc = IO().load_pointcloud(data.root_dir / f'scans/{scene_id}/{scene_id}_vh_clean.ply')\n",
+    "verts = pc.points_packed()\n",
+    "aligned_verts = torch.cat([verts, torch.ones_like(verts[:,:1])], dim=-1) @ scene_obs['axis_align_mats'][0].T\n",
+    "pointcloud_aligned = Pointclouds(points=aligned_verts[...,:3].unsqueeze(0), features=pc.features_packed().unsqueeze(0))\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# df[:10]\n",
+    "scene_obs['ref_expr']"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Visualize referring expression\n",
+    "# Title: Query\n",
+    "# Trace: Pointcloud \n",
+    "# Trace: GT bbox\n",
+    "# Trace: Distractors of same class\n",
+    "selected = scene_obs['box_target_ids'] == 39\n",
+    "id_to_name = dict(zip(data.METAINFO['CLASS_IDS'], data.METAINFO['CLASS_NAMES']))\n",
+    "id_to_name[scene_obs['box_classes'][selected].item()]"
    ]
   },
   {
@@ -146,12 +180,9 @@
     "\n",
     "fig = plot_scene_with_bboxes(\n",
     "    plots = { f\"{scene_id}\": { \n",
-    "                                \"Points\": svm.global_voxel_grid._pcl,\n",
-    "                                # \"Boxes\": join_boxes_as_scene(svm.instance_bboxes3d),\n",
-    "                                \"All boxes\": global_boxes,\n",
-    "                                \"Global boxes\": global_boxes,\n",
+    "\n",
     "                                \"GT boxes\": gt_boxes,\n",
-    "                                \"GT points\": Pointclouds(points=[aligned_verts[:, :3]]),\n",
+    "                                \"GT points\": pointcloud_aligned,\n",
     "                                # \"cameras\": cameras,\n",
     "                            }\n",
     "    },\n",
@@ -163,7 +194,9 @@
     "    pointcloud_max_points=30_000,\n",
     "    boxes_wireframe_width=3,\n",
     "    boxes_add_cross_face_bars=False,\n",
-    "    boxes_name_int_to_display_name_dict = dict(zip([int(i) for i in data.METAINFO['seg_valid_class_ids']], data.METAINFO['classes'])),\n",
+    "    # boxes_name_int_to_display_name_dict = dict(zip([int(i) for i in data.METAINFO['seg_valid_class_ids']], data.METAINFO['classes'])),\n",
+    "    boxes_name_int_to_display_name_dict = dict(zip(data.METAINFO['CLASS_IDS'], data.METAINFO['CLASS_NAMES'])),\n",
+    "\n",
     "    boxes_plot_together=False,\n",
     "    height=1000,\n",
     "    # width=1000,\n",