- 博客开通了,标记一个:) a new start [2007-12-29 13:53]
-
关关
2011-04-04 10:47:00 by deepblue家有小狗,取名关关,她的眼神总是那么忧郁~

-
开始学习摄影
2011-03-05 00:50:00 by deepblue -
BM25算法浅析
2011-02-10 13:38:00 by deepblueBM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。
BM25算法的一般性公式如下:

其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,我们可以把对Query的分词作为语素分析,每个词看成语素qi。);d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。
下面我们来看如何定义Wi。判断一个词与一个文档的相关性的权重,方法有多种,较常用的是IDF。这里以IDF为例,公式如下:

其中,N为索引中的全部文档数,n(qi)为包含了qi的文档数。
根据IDF的定义可以看出,对于给定的文档集合,包含了qi的文档数越多,qi的权重则越低。也就是说,当很多文档都包含了qi时,qi的区分度就不高,因此使用qi来判断相关性时的重要度就较低。
我们再来看语素qi与文档d的相关性得分R(qi,d)。首先来看BM25中相关性得分的一般形式:


其中,k1,k2,b为调节因子,通常根据经验设置,一般k1=2,b=0.75;fi为qi在d中的出现频率,qfi为qi在Query中的出现频率。dl为文档d的长度,avgdl为所有文档的平均长度。由于绝大部分情况下,qi在Query中只会出现一次,即qfi=1,因此公式可以简化为:

从K的定义中可以看到,参数b的作用是调整文档长度对相关性影响的大小。b越大,文档长度的对相关性得分的影响越大,反之越小。而文档的相对长度越长,K值将越大,则相关性得分会越小。这可以理解为,当文档较长时,包含qi的机会越大,因此,同等fi的情况下,长文档与qi的相关性应该比短文档与qi的相关性弱。
综上,BM25算法的相关性得分公式可总结为:

从BM25的公式可以看到,通过使用不同的语素分析方法、语素权重判定方法,以及语素与文档的相关性判定方法,我们可以衍生出不同的搜索相关性得分计算方法,这就为我们设计算法提供了较大的灵活性。
参考资料:
1. Project2--Lucene的Ranking算法修改:BM25算法
2. Okapi BM25算法详解
3. 谈谈BM25评分 -
我的2010
2011-01-03 15:42:00 by deepblue这一年...
1月: 在学校的最后一个元旦。
2月: 回家过年
3月-4月: 以实习生的身份参加淘宝年会,第一次到杭州;跑数据,做实验,写毕业论文,享受学生时代的最后时光,与dl一起看了3D大片《阿凡达》。
5月: 毕业论文定稿,答辩。
6月: 和dl一起,两个人的毕业旅行。去了青岛、威海、苏州。青岛很美丽,老城区的生活非常惬意,大海很好看,去了海底世界;对威海有些失望,去了刘公岛;到苏州先去了附近的古镇同里,与想象中的古镇风景相差甚远,感觉像是城乡结合处,到处跑着小摩托车。。。苏州园林名不虚传,但我们停留时间太短。
7月: 毕业典礼,硕士毕业,正式结束了学生时代,加入淘宝广告算法团队,开始新的生活;到杭州参加百淘、百技培训,见到了一些技术牛人;参加了为四川贫困山区捐书的公益活动,作为公司北京的联络人,发动同事捐赠了一些儿童读物;再次游览了美丽的西湖,看到了断桥,到西湖旁的楼外楼总店大吃了一顿。已经6、7年没有在南方过夏天了,这次在杭州的夏天,很怀念,还是更喜欢南方的风景。
8月: 8月初培训结束,回到北京,租房,开始了每天早晚挤地铁上下班的生活。
9月: 公司半年会,再次到杭州,时间太短,与淘花队的小朋友们匆匆一聚;千岛湖outing,新人秀舞蹈,漂流,坐快艇游览千岛湖,千岛湖的水很美;26了。
10月: 工作、学习,感觉时间过得好快。
11月: 试用期结束,转正;第一次完整地负责一个跨团队项目。这段时间很辛苦,很认真,加班很多,遗憾的是项目没能在年前上线,但也是一种经历,一份收获;更清楚地认识到了自己与老员工的差距。
12月: 看了几本科幻小说《三体》,找回了高中时看《科幻世界》、《卫斯理》时久违的感觉;第一次到世贸天阶吃金钱豹,不过如此;玩了微软新出的Kinect,cool;落户。
收获...
1. 一张毕业证,一张学位证。
2. 从学校走向了公司,身份的转变,生活状态的转变:节奏加快,很充实,自我的突破。
3. 学习了一些新的技术:linux上的开发,bash,awk,写spec文件打rpm包,写hadoop程序。从周围的同事身上学到了很多,包括技术和做事的方法,以及时间管理等。
4. 读书、旅游,学会了几种新桌游:UNO,通缉令,电网。
-
一年,三月
2010-10-10 16:23:00 by deepblue一年,从毕业前开始找工作到现在,刚好一年。
一直想写一篇日志记录自己在找工作过程中的点点滴滴,实验室的同学也说让我总结一些找工作的经验,以作参考。可由于之前忙于准备毕业论文、答辩,以及后来的毕业旅行,再后来的入职培训,这件事也就一拖再拖下来。
三月,从7月12日正式入职到今天,即将满三个月。
进入公司三个月来,了解了公司的企业文化,熟悉了业务流程,接触到很多新鲜事物,学习了新的技术。这三个月对我来说是忙碌的,也是充实的,也有很多感想。这个时候,是该写点什么了。
PART I 找工作
那就先说说找工作的经验吧。可能是兴趣和性格所致,我找工作时的目标很明确:只找技术型公司,不考虑国企和事业单位。这样缩小了目标范围,准备起来也可以有的放矢了。在经历了一系列的笔试面试后,尘埃落定。总的来说还算顺利,拿到的几个offer自己也比较满意。下面总结几点,希望对以后的同学找技术职位的工作有所帮助。
1. 简历
简历,要简而精,最好控制在一页A4纸以内。可能很多同学在第一次做简历的时候,都想把自己的方方面面都写上去,其实这样让人看了后,很难抓住重点。简历的作用就是让筛选简历的人一眼能看到你的专长,能够迅速作出应聘者是否符合职位需求的判断。在准备简历时主要注意两点:排版简洁美观和内容有针对性。
怎样的排版才叫简洁美观,很难定义,每个人有不同的标准。这里说几个小技巧:1)字体用普通的宋体。字号根据简历的内容适当调整,不要让一页A4纸显得过于密密麻麻,也不要显得太空。我当时中文字号是用的五号,并减少了Word的页边距,是一页的中间部分能最大限度的呈现重要内容。2)排版用表格,比较方便对齐和调整不同部分的间距。当然,最后表格的边框都要调成白色隐去,免得一页到处是黑线。。。3)适当应用黑体和列表项(bullet),这样能使内容更有条理。4)尽量使用PDF版本的简历。
内容有针对性。就是要针对不同类型公司的不同职位,准备不同的简历。其实这很好理解,每个职位的所需要的专业技能是不一样的,面试官筛选简历时看重的方面也不一样。当然,内容绝对不能造假,要按照真实情况,把最满足应聘职位需求的自己相关信息展现在最突出的位置,其他信息,可简单略过。
应届生的工作经验可能较少,简历内容精简后好好排版,应该能把重要内容放到一页内(牛人除外,牛人就无视所谓的经验吧)。
2. 笔试
不同职位的技能需求不同,笔试内容也有很大差异。基于专业和兴趣,我投的职位都是互联网搜索算法和文本处理相关的。笔试的主要目的是考察大家的基础知识,其中数据结构和常用算法需要重点掌握。计算机组成原理和操作系统的相关知识也要好好梳理,与职位相关的数据挖掘相关知识也要好好准备。编程语言的重要性视职位而定,如果是算法相关职位的话,考查的往往是解决问题的思路,具体编程语言就比较次要了。由于我们实验室比较偏理论,写的程序也都是主要用来处理和分析数据,硕士期间我也没有参加什么大型的项目开发,所以开发经验相当匮乏(汗颜。。。),不过我找工作过程中,好像还没有遇到因为编程语言不熟练而被拒的情况。
3. 面试
面试的临场发挥自由度就很大了。一定要对自己简历中提到的内容非常熟悉,并能简明扼要地说清楚自己在项目中的职责。其次,要对自己应聘的公司和职位有一定的了解,让面试官知道你是在认真对待这次面试机会。技术型面试,难免会有现场写程序或说设计思路的,同样,考查的重点一是计算机专业的基本功,如数据结构和算法,二是解决问题的思路和考虑问题的全面性。如果遇到实在想不出解决方案的问题,就有什么想法谈什么想法,最重要的是让面试官了解你的思考过程。
可能因为是校园招聘,面试官也知道应届生往往经验不足,我所遇到的面试官对应届生都很宽容,从不刻意刁难人,有时说说自己的思路,他们反而会给出一些引导性的提示。在此感谢一下我找工作过程中遇到的每一位面试官!
其实,找工作就像找对象,是要靠缘分的。。。真诚地展示自己就好,祝大家好运~
PART II 学习工作@淘宝
时间过得真快,感觉自己刚毕业没多久,各大公司都已经开始下一届的校园招聘了。我当时在几个不错的offer之间纠结了几天,最终选择了淘宝,一方面是觉得电子商务的发展前景很好,另一方面是喜欢互联网广告这个行业,加入了广告算法部门。转眼间,已经工作了三个月。
说工作了三个月,其实前一个多月都在参加培训。淘宝的总部在杭州,入职培训当然也在美丽的杭州了,终于来到了许仙与白蛇相遇的西湖,那叫一个激动啊~ 果然名不虚传,西湖很美,周围的植物多种多样,很茂盛,这样的情景在干燥寒冷的北京是无法见到的。
言归正传。淘宝的入职培训有两个,一个叫百年淘宝,简称百淘,时间为一个星期,主要是为新入职的同学讲解公司文化和价值观,以及淘宝的历史和一些趣事,期间也会有一些高管来讲公司的业务。最最重要的是,这七天里会结识一帮很好的朋友。百淘给我的总的感觉就是:玩得很累。。。有国王与天使的任务,室外的素质拓展,分组价值观演绎,还有我们自编自演的毕业大片等等。注意,百淘培训是不分部门的!也就是说,会有很多运营、客服的mm一起参加,理工科的男生们上这么多年的学,也没一次见过这么多女生吧?哈哈~
另一个培训是针对技术部门的应届生的,叫淘宝技术大学,简称百技,时间是一个月。期间会根据大家的部门安排不同的技术课程,这是我们这些刚毕业的同学最求之不得的。从中可以了解到淘宝各部门的技术架构。说实话,以前并没有觉得淘宝的技术有多牛,参加了百技才知道原来淘宝有这么多的牛人,很多底层的框架和系统都是完全由自己开发的,比如有自己的分布式文件系统TFS,自己的缓存和持久化存储系统Tair。这些系统已经经受住了每天大规模数据的考验,而且更让我佩服的是,淘宝对这些系统进行了开源!除了了解整体技术架构外,大家还会学习到在工作中马上会用到的具体技术,并完成很多开发实践。这些课程对我在后来的投入正式工作都很有帮助。
8月初,一个多月的脱产培训结束后,我回到北京投入了正式的工作。在淘宝工作有个很有意思的特点,就是每个人都会有花名,大部分都源自武侠小说中的人物。嗯,现在的互联网正如腥风血雨的江湖,化身为正义的侠客,一展身手吧:)
每个新入职的员工都会指派一个老员工作为师兄或师姐,他们会帮助我们尽快熟悉部门业务,工作或生活中遇到什么困难都可以找他们。我的情况比较特殊,前后分配了三个师兄,太荣幸了~ 刚开始工作我有很多事情不知道从何下手,这期间佳佳哥、锋哥、笔笔,游龙,以及当了我几天师兄的舞阳都帮了我不少,在工作过程中也“骚扰”了很多其他部门的同学,有问题找他们总能得到解决,在此一并谢过!
每天快节奏的工作让我很充实,就像一块掉入水中的海绵一般贪婪地吸收新的知识。再次很荣幸,我经历了两个主管,他们对我工作和生活上的关心让我很感动。游龙跟我讲过,新人入职前几个月是成长最快最关键的时间,的确,这段时间我接触了很多新东西,学到了一些新技术,感觉学习效率也比在学校时更高了。刚开始,我也情绪低落过一段时间,总觉得自己做事动作太慢,跟不上节奏,后来笔笔和我谈了话,帮我分析了原因,也给了我不少鼓励。渐渐地,我习惯了从学生到员工的角色转变,习惯了快节奏的工作,习惯了每天晨会中对前一天工作的总结和当天工作的计划,在师兄的帮助下,也顺利完成了几个小的项目和数据分析。
9月中旬公司的半年会,我又回到了杭州,见到了很多百淘百技的同学,见到了我们淘花队可爱的队友们,很开心。千岛湖的outing的新人秀节目上,我反串成女生,跳了一段“性感”的舞蹈,这是我长这么大以来,最大尺度的一次突破了。。。千岛湖的水真的很美,临走那天,我们几个人租了一艘快艇,在湖上逛了一圈,很刺激。要是有机会潜到千岛湖底去看看被淹没的千年古镇那就更爽了。
回顾起来,这些都是我工作近三个月来的经历和感想。时间很短,却很充实,能够实实在在地感觉到自己的成长,这种感觉真好。嗯,快乐工作,认真生活。
-
捐一本书,成就一个梦
2010-07-12 12:37:24 by deepblue最近忙着培训,很久没有写日志了。
下面发个我们培训组组织的一次公益活动,希望大家支持!
-----------------------------------------------------
1个乡村图书馆
1个乡村的梦想
实现它需要
1个人捐5000本书
10个人每人捐500本书
100个人每人捐50本书
1000个人每人捐5本书
还犹豫什么,让我们成为这1000分之一
所需书籍: 适合青少年,山村教师,村民阅读的书籍
书籍去向:四川省合江县茅山小学茅山乡村图书馆
邮寄地址:四川省泸州市纳溪区东门口西南化工研究院34幢802室 熊启华收
邮编:646300 手机:13937510823
详情咨询: 旺旺:luoxirocy QQ:84614374
捐助地介绍
茅山小学位于四川南部合江县凤鸣镇,距凤鸣镇政府10公里,现有小学教学班9个,幼儿学前班3个,有学生近500人。处于浅表性滑坡地带,2003年利用“逸夫基金”进行新迁建,因为资金严重不足,就只建设了学校最简单的教学设施。
学生全部来自农村, 50%的学生家距学校有5公里以上的路程,崎岖的山路上终年有孩子们起早贪黑,打着电筒上学和回家的身影。山村孩子除教科书外基本无书可读,精神食粮极其缺乏,非常渴望能得到社会各界的帮助。
大山中的学校-----茅山小学
在土的跑道上进行的运动会
破旧的教师公寓
捐一本书,成就一群孩子的梦想
邮寄地址:四川省泸州市纳溪区东门口西南化工研究院34幢802室 熊启华收
邮编:646300 手机:13937510823
详情咨询:旺旺luoxirocy QQ 84614374
--------------------------------------------------------
最简单的参与方式就是转载这篇日志。
有意向直接参加筹备和捐助的朋友可以通过上面的联系方式联系,也可以在本贴下回复。
欢迎任何方式的帮助!
-
日出?日落?
2010-05-11 23:32:09 by deepblue -
哥不跟你玩了
2010-01-13 21:57:41 by deepblue












