孪生LSTM网络(Siamese-LSTM)
本项目是基于孪生LSTM网络+注意力机制+曼哈顿距离(Manhattan distance)实现的句对相似度计算。
中文训练数据为蚂蚁金服句对数据,约4万组,正负样本比例1:3.6;英文训练数据来自Kaggle上的Quora句对数据,约40万组,正负样本比例1:1.7。新增一组翻译数据:使用Google Translator将Quora数据翻译成中文。
资料
参考文献
中国大陆可能无法访问《How to predict...Manhattan LSTM》一文,请直接查看本项目中附件之参考博客
其它数据
英文词向量:
英文词向量:
中文词向量:
工程参考
Original author's GitHub
一些网络设计思路
使用
训练
$ python3 train.py
$ type cn for Chinese Data or en for
1