看完您的概括,发现siameseCNN除了将最后计算相似度从MLP换成cosine distance,然后在卷积之前少了一层隐藏层,请问为什么会这样做?而且siameseCNN是2014年的论文,而ARC-1是13年的,为什么作者好像都没有和进行比较。