推荐算法业余爱好者的一遍垂死挣扎

小编就职于fifty
eight,公司10月首的时候,实行了三回推荐介绍算法大赛。小编的部门做的是post业务,推荐算法在常常工作中全然没有机会接触。但那不能够成为屏弃的说辞,给协调一个光景假诺:本人的招数开创的二个巨型招聘网站,承担着引领互连网招聘行业前卫的沉重。但出于资金衰竭,请不起专业的推荐算法的专业人士,只可以让作为董事长、ceo及cto的本身亲身上阵。果断报名了。

机械键盘 1

竞赛的教练多少都在提供的测试集群中,须要参加比赛选手工编织写mapreduce、spark程序,为钦定的100万条测试数据打分(某用户点击某职位的可能率)。竞技的成绩首要参照,使用实际点击境况测算出的auc指标。幸好小编上家公司间接号称做大数量利用,多少用过点mapreduce。不像fifty
eight,经常只是在动用公司的自有框架WX、SXX、WXXXX、WXXXXX,据他们说那一个都是足以在理论参数上吊打各样开源成熟技术的。

提供15天的测试数据,如下:

岗位彰显点击数据

用户作为点击数据

简历投递数据

职责基本消息数量

公司基本新闻数量

信用合作社岗位关联数据

简历基本消息数据

简历-教育经验多少

简历-工作经验数据

简历-项目经历多少

直辖种类字典表

表现连串字典表

呈现归属地字典表

名下地字典表

要求为第③6天的100万条测试数据(取自“职位突显点击数据”)总结可能率

考虑到温馨只是个业余爱好者,这么多多少根本领会不了。干脆正是贯彻2个最简便的算法:

机械键盘 2

算法示意图

将索要分析的每对用户——职位,使用演练多少(职位呈现点击数据、用户作为点击数据、简历投递数据)分别找出此用户点击过的整套职位、前来点击此岗位的一体用户。使用这个有关用户与这一个有关职务,举办整合(图中的方框),组合后存在点击行为的数量
/ 总组合数量,作为结果。

机械键盘,算法要对三种点击数据,进行三回遍历,分别筛选出有关用户、职位,以及有关用户、职位之间的点击行为。

护卫多少个HashSet,分别装入要求筛选的用户、职位。在遍历陶冶多少时,进行过滤就足以了:

public void map(Object key, Text value, Context context) throws
IOException, InterruptedException {

    ……//起始化多个HashSet,省略

    String line = value.toString();

    String[] cols = line.replace(‘\1’, ‘\t’).split(“\t”);

    boolean containsCookie = cookieSet.contains(cols[0]);

    boolean containsInfo = infoSet.contains(cols[1]);

    if (containsCookie && containsInfo) {

        keyOut.set(“D\t” + cols[0] + “\t” + cols[1]);

        context.write(keyOut, one);

    } else if (containsCookie) {

        keyOut.set(“U\t” + cols[0] + “\t” + cols[1]);

        context.write(keyOut, one);

    } else {

        if (containsInfo && !”-“.equals(cols[0])) {

            keyOut.set(“I\t” + cols[0] + “\t” + cols[1]);

            context.write(keyOut, one);

        }

    }

}

cookieid作为用户标识,infoid作为职分标识。代码中,还针对筛选来自用户、来自职位、同时来自用户及职责,实行了标记(U/I/D)。reduce没有作用,未贴出。

遵守同样的法门(使用HashSet)进行第①遍遍历(筛选相关用户、职位之间的点击行为),由于相关用户、职位的数码过多,使得HashSet过大,从而程序不能够运行。从而换用载入四个提前持久化好的bloomfilter对象(填充过全部唇齿相依用户、职位),代替五个HashSet:

public void map(Object key, Text value, Context context) throws
IOException, InterruptedException {

    if (null == myBloomFilter) {

        Configuration conf = new Configuration();

        FileSystem fileSystem = FileSystem.get(conf);

        FSDataInputStream open = fileSystem.open(new
Path(“/home/team055/middata/bloom.tmp”));

        ObjectInputStream objectInputStream = new
ObjectInputStream(open);

        try {

            myBloomFilter =
(MyBloomFilter)objectInputStream.readObject();

        } catch (ClassNotFoundException e) {

            System.exit(-1);

        }

        objectInputStream.close();

        open.close();

    }

    String line = value.toString();

    String[] cols = line.replace(‘\1’, ‘\t’).split(“\t”);

    if (myBloomFilter.contains(cols[0].getBytes(),
cols[0].getBytes().length) &&
myBloomFilter.contains(cols[4].getBytes(),
cols[4].getBytes().length)) {

        keyOut.set(cols[0] + “\t” + cols[4]);

        context.write(keyOut, one);

    }

}

经过一回遍历,已经得到了连带用户、职位,以及有关用户、职位之间的点击行为。再编辑八个当地java程序,总括点击可能率就好了,由于“相关用户、职位之间的点击行为”的数据量过大,并且只用来判断存在性,再一次利用bloomfilter即可。

说到底的参天成绩为:0.7435651柒 、最低战绩为:0.58098208

我的成绩为:0.69243595,排行14/23(个人)、11/19(团队)。无缘奖品:

奖项设置

冠军:1支队伍,无人机1台,iphone7

季军:1支部队,Nokia平衡车1台

亚军:1支军队,多功能键盘3个

上述全数代码:http://pan.baidu.com/s/1o77pri6

相关文章