推荐系统算法实现的开源project发布(implementations of classic algorithms in recommender system)
在实现koren论文的算法的时候我遇到了很多问题:
(1)针对大规模数据的时候(100M的打分数据),以前那种粗放型的使用cpu和内存的方法完全行不通,因为数据量大,算法和数据结构不考虑周到则时间和空间消耗都难以忍受。
(2)数据的初始化和参数的设置对结果有很大的影响,为了复现koren的结果,我第一个svd的程序大概花了2周时间才搞定,中间走了很多弯路,光调参数就花了4天。
(3)其他一些困难,此处省略1000字-_-……
为了减少推荐系统领域的朋友入门的难度,我将一些推荐算法的细节展现出来,通过代码的形式呈现给大家,给大家一个好的参照,使大家能尽快上手,减小入门的门槛,希望能为推荐系统领域的发展尽一些绵薄之力!希望有更多的人研究这个有趣且有用的领域!
代码说明:
(1)所有的代码都是用c++实现(c++效率高,对于像netflix dataset这么大规模的数据,脚本语言处理起来太慢)
(2)代码使用GPL V3协议发布,大家在使用的时候请保留版权信息。
(3)代码中肯定有很多不完善和错漏的地方,如果发现,请给我发邮件,也希望大家和我一起完善这个project。
一些有用的链接
(1) 新人第一步:快速使用本project的入门指南
(2) 获取本project中用到的netflix的测试集和训练集数据的方法:netflix数据预处理方法
(3) 在代码实现过程中遇到的问题
(4) knn算法执行的一些结果
(5) svd算法执行的一些结果
希望有更多的人加入这个project,将更多的算法代码贡献出来,比如目前尚缺RBM model,temporal model
想加入开发的或者交流的朋友可以从这里很方便的联系我:我的联系方式 或者直接给我发mail,honglianglv at gmai的邮箱
Project的地址: http://code.google.com/p/recsyscode/
ps: 这也是我的第一个开源项目,用了这么多的开源软件,今天算是迈出了回馈开源界的第一步,以后如果有好的东西我也会分享给大家
除注明转载的文章外,都是本人原创,转载时请加上原文链接并注明: 转载自品味生活
本文链接地址: 推荐系统算法实现的开源project发布(implementations of classic algorithms in recommender system)
Popularity: 76%
最新评论