siameseCNN和ARC-1有什么明显区别

看完您的概括，发现siameseCNN除了将最后计算相似度从MLP换成cosine distance，然后在卷积之前少了一层隐藏层，请问为什么会这样做？而且siameseCNN是2014年的论文，而ARC-1是13年的，为什么作者好像都没有和进行比较。