uncomitted changes

BasisResearch · agrawalraj · Jan 19, 2024 · Nov 8, 2023 · Nov 9, 2023 · Nov 9, 2023
commit faed2356a8541de1731534d0874233e0f5d307eb
diff --git a/chirho/robust/internals.py b/chirho/robust/internals.py
@@ -1,10 +1,10 @@
-from typing import ParamSpec, Callable, TypeVar, Optional
+from typing import ParamSpec, Callable, TypeVar, Optional, Dict, List
 import torch
 from pyro.infer import Predictive
 from pyro.infer import Trace_ELBO
 from pyro.infer.elbo import ELBOModule
 from pyro.infer.importance import vectorized_importance_weights
-from pyro.poutine import mask, replay, trace
+from pyro.poutine import block, replay, trace, mask
 
 P = ParamSpec("P")
 Q = ParamSpec("Q")
@@ -15,19 +15,47 @@
 Guide = Callable[P, Optional[T | Point[T]]]
 
 
-# guide should hide obs_names sites
+def _shuffle_dict(d: dict[str, T]):
+    """
+    Shuffle values of a dictionary in first batch dimension
+    """
+    return {k: v[torch.randperm(v.shape[0])] for k, v in d.items()}
 
 
+# Need to add vectorize function from vectorized_importance_weights
+
+
+# Issue: gradients detached in predictives
 def vectorized_variational_log_prob(
-    model: Callable[P, T], guide: Guide[P, T], X: Point, *args, **kwargs
+    model: Callable[P, T],
+    guide: Guide[P, T],
+    trace_predictive: Dict,
+    obs_names: List[str],
+    # num_particles: int = 1, # TODO: support this next
+    *args,
+    **kwargs
 ):
-    guide_trace = trace(guide).get_trace(*args, **kwargs)
-    model_trace = trace(replay(model, guide_trace)).get_trace(*args, **kwargs)
-    log_probs = dict()
-    for site_name, site_val in X.items():
+    """
+    See eq. 3 in http://approximateinference.org/2017/accepted/TangRanganath2017.pdf
+    """
+    latent_params_trace = _shuffle_dict(
+        {k: v.clone() for k, v in trace_predictive.items() if k not in obs_names}
+    )
+    obs_vars_trace = {
+        k: v.clone().detach() for k, v in trace_predictive.items() if k in obs_names
+    }
+    import pdb
+
+    pdb.set_trace()
+    model_trace = trace(replay(model, latent_params_trace)).get_trace(*args, **kwargs)
+
+    N_samples = next(iter(latent_params_trace.values())).shape[0]
+
+    log_probs = torch.zeros(N_samples)
+    for site_name, site_val in obs_vars_trace.items():
         site = model_trace.nodes[site_name]
         assert site["type"] == "sample"
-        log_probs[site_name] = site["fn"].log_prob(site_val)
+        log_probs += site["fn"].log_prob(site_val)
     return log_probs
 
 
@@ -61,64 +89,46 @@ def log_prob(self, X: Point, *args, **kwargs) -> torch.Tensor:
         pass
 
 
+def log_likelihood_fn(flat_theta: torch.tensor, X: Dict[str, torch.Tensor]):
+    n_monte_carlo = X[next(iter(X))].shape[0]
+    theta = _unflatten_dict(flat_theta, theta_hat)
+    model_at_theta = condition(data=theta)(DataConditionedModel(model))
+    log_like_trace = pyro.poutine.trace(model_at_theta).get_trace(X)
+    log_like_trace.compute_log_prob()
+    log_prob_at_datapoints = torch.zeros(n_monte_carlo)
+    for name in obs_names:
+        log_prob_at_datapoints += log_like_trace.nodes[name]["log_prob"]
+    return log_prob_at_datapoints
+
+
 # For continous latents, vectorized importance weights
 # https://docs.pyro.ai/en/stable/inference_algos.html#pyro.infer.importance.vectorized_importance_weights
 
 # Predictive(model, guide)
 
+if __name__ == "__main__":
+    import pyro
+    import pyro.distributions as dist
 
-import pyro
-import pyro.distributions as dist
-
-
-# Create simple pyro model
-def model(x: torch.Tensor) -> torch.Tensor:
-    a = pyro.sample("a", dist.Normal(0, 1))
-    b = pyro.sample("b", dist.Normal(0, 1))
-    with pyro.plate("data", x.shape[0]):
-        y = a * x + b
-        return pyro.sample("y", dist.Normal(y, 1))
-
-
-# Create guide
-guide_normal = pyro.infer.autoguide.AutoNormal(model)
-
-
-def fixed_guide(x: torch.Tensor) -> None:
-    pyro.sample("a", dist.Delta(torch.tensor(1.0)))
-    pyro.sample("b", dist.Delta(torch.tensor(1.0)))
-
-
-# Create predictive
-predictive = Predictive(model, guide=fixed_guide, num_samples=1000)
-
-samps = predictive(torch.tensor([1.0]))
-
-# Create elbo loss
-elbo = pyro.infer.Trace_ELBO(num_particles=100)(model, guide=guide_normal)
-
-
-torch.autograd(elbo(torch.tensor([1.0])), elbo.parameters())
-
-torch.autograd.functional.jacobian(
-    elbo,
-    torch.tensor([1.0, 2.0]),
-    dict(elbo.named_parameters())["guide.locs.a_unconstrained"],
-)
-
-x0 = torch.tensor([1.0, 2.0], requires_grad=False)
-
-elbo(x0)
-
-x1 = torch.tensor([[1.0, 2.0], [2.0, 3.0]], requires_grad=True)
-
-
-vectorized_importance_weights(
-    model, guide_normal, x=x0, max_plate_nesting=4, num_samples=10000
-)[0].mean()
+    # Create simple pyro model
+    def model():
+        a = pyro.sample("a", dist.Normal(0, 1))
+        b = pyro.sample("b", dist.Normal(0, 1))
+        return pyro.sample("y", dist.Normal(a + b, 1))
 
+    # Create guide on latents a and b
+    guide = pyro.infer.autoguide.AutoNormal(block(model, hide=["y"]))
+    # with pyro.poutine.trace() as tr:
+    #     guide()
+    # print(tr.trace.nodes.keys())
+    # Create predictive
+    predictive = Predictive(model, guide=guide, num_samples=100)
+    # with pyro.poutine.trace() as tr:
+    X = predictive()
 
-torch.stack([torch.zeros(3), torch.zeros(3)])
+    vectorized_variational_log_prob(model, guide, X, ["y"])
 
+    # print(X)
+    # import pdb
 
-elbo.parameters()
+    # pdb.set_trace()