我们提出了一种自我监督的方法来完整地从多个视点记录的未标记的视频学习表示。这与机器人仿制学习特别相关,这就需要对人与自然环境之间的关系的观点不变的理解,包括对象交互,属性和身体姿态。我们使用三元损失训练我们的表示,其中同一观察的多个同时观察被吸引在嵌入空间中,同时被从视觉上相似但功能上不同的时间邻居排斥。这个信号鼓励我们的模型发现不同角度变化的属性,但是会随时间而变化,同时忽略妨碍变量,如闭塞,运动模糊,照明和背景。我们的实验表明,这样的表示甚至获得某种程度的对象实例的不变性。我们证明我们的模型可以正确地识别复杂对象交互中的相应步骤,例如在不同实例的不同视频中倾倒。我们还展示了我们所知道的,一个真正的机器人对人类运动进行端对端模拟学习的第一个自我监督的结果。