|
[此帖已被设为精华]
刚刚做完搜狗2019校招-网页搜索数据挖掘研究员笔试,新鲜滚热辣的笔经。因为贴主是个技术渣渣,根本不会做,为了不浪费这次笔试,就把时间花在记录题目上了,想着攒一攒人品吧。
一共2小时做题时间。
4道问答题,3道编程题。
问答题1: 甲乙两人合租,要安排搞卫生的工作,一人负责一周的卫生,但是谁先开始打扫卫生谈不拢。现有一枚硬币,正面的概率是0.7,反面的概率是0.3。要求仅通过这一枚硬币,来设计一套公平的方案来决定谁先开始。
问答题2: 一个工厂的真实次品率为0.1%,现研制出一种快速次品检验方法。在次品零件中,该方法能检验出90%的零件是次品。但在正品中,该方法也检验出1%的零件是次品。问:
(1)该方法的检验准确率、召回率分别是多少(要求写出计算过程)
(2)如果检验该方法是一个分类模型,如何提高该方法的准确率。
问答题3: 要求一个网页搜索的query与url的相关程度。给出一个日志:query 搜索时间 url1 是否点击 点击时间 url2 是否点击 点击时间 url3 是否点击 点击时间 ......
(1)为了的求出query与url的相关程度,需要统计用户哪些行为特征
(2)还可以采集那些日志
(3)什么模型合适?为什么?如何构造训练数据?还可以用什么模型,把多个模型做比较。
问答题4:现有词性标注任务,“我 是 一 个 学生”,标注词性“代词 动词 数词 量词 名词”。 现有8000句人工标注的训练集,平均长度20个词。现有2种方法可以选择。
1. HMM
2. 单层200个隐层单元的LSTM模型
哪个模型比较好,原因是什么?
编程题1:数字序列题
要求该数字序列上一段最小的连续区间长度,要求该区间内正好包含了所有不同的数字。
input
10
1
1
3
4
6
6
5
1
3
3
output:
6 3
[2,7] [3,8] [4,9]
输出的第一个数字表示区间长度,第二个数字表示区间数量,并且标出区间的起始和终止位置
编程题2:矩阵计算题
input: [1,2]*[3;4]
output:11
input: 2*[1;2]*[3,4]+[1,2;3,4]
output:[7,10;15,20]
input: [2,3]+[4;5]
output:Error
分号表示分割行,逗号表示一行内各列的分割
编程题3:糖果游戏题
攒点人品,希望可以帮到人,或者帮到下一届的同学们吧。
|
+10
|