Which One? Leveraging Context Between Objects and Multiple Views for Language Grounding

We present the MAGiC model which selects an object referent based on language meant to distinguish between two similar objects by reasoning over both objects from multiple vantage points.