主题推荐： “应届生求职网”微信小程序更多推荐		今日十大最新导读应届生求职网微信小程序	搜索讨论区：或按拼音查找

查看: 1741|回复: 0

[综合笔经] 搜狗2019校招－网页搜索数据挖掘研究员笔试题目

[复制链接]

hjyao

主题	好友	112 积分

职员

发消息

电梯直达

1楼

发表于 2018-9-14 19:47 |显示全部楼层 |倒序浏览

[此帖已被设为精华]

刚刚做完搜狗2019校招－网页搜索数据挖掘研究员笔试，新鲜滚热辣的笔经。因为贴主是个技术渣渣，根本不会做，为了不浪费这次笔试，就把时间花在记录题目上了，想着攒一攒人品吧。
一共2小时做题时间。
4道问答题，3道编程题。

问答题1: 甲乙两人合租，要安排搞卫生的工作，一人负责一周的卫生，但是谁先开始打扫卫生谈不拢。现有一枚硬币，正面的概率是0.7，反面的概率是0.3。要求仅通过这一枚硬币，来设计一套公平的方案来决定谁先开始。

问答题2: 一个工厂的真实次品率为0.1%，现研制出一种快速次品检验方法。在次品零件中，该方法能检验出90%的零件是次品。但在正品中，该方法也检验出1％的零件是次品。问：
（1）该方法的检验准确率、召回率分别是多少（要求写出计算过程）
（2）如果检验该方法是一个分类模型，如何提高该方法的准确率。

问答题3: 要求一个网页搜索的query与url的相关程度。给出一个日志：query 搜索时间 url1 是否点击点击时间 url2 是否点击点击时间 url3 是否点击点击时间 ......
（1）为了的求出query与url的相关程度，需要统计用户哪些行为特征
（2）还可以采集那些日志
（3）什么模型合适？为什么？如何构造训练数据？还可以用什么模型，把多个模型做比较。

问答题4:现有词性标注任务，“我是一个学生”，标注词性“代词动词数词量词名词”。现有8000句人工标注的训练集，平均长度20个词。现有2种方法可以选择。
1. HMM
2. 单层200个隐层单元的LSTM模型
哪个模型比较好，原因是什么？

编程题1:数字序列题
要求该数字序列上一段最小的连续区间长度，要求该区间内正好包含了所有不同的数字。
input
10
1
1
3
4
6
6
5
1
3
3

output:
6 3
[2,7] [3,8] [4,9]

输出的第一个数字表示区间长度，第二个数字表示区间数量，并且标出区间的起始和终止位置

编程题2:矩阵计算题
input: [1,2]*[3;4]
output:11

input: 2*[1;2]*[3,4]+[1,2;3,4]
output:[7,10;15,20]

input: [2,3]+[4;5]
output:Error

分号表示分割行，逗号表示一行内各列的分割

编程题3:糖果游戏题

攒点人品，希望可以帮到人，或者帮到下一届的同学们吧。

本帖子中包含更多资源

您需要登录才可以下载或查看，没有帐号？注册 QQ登录

x

+10

收藏0

使用道具举报

返回列表

[综合笔经] 搜狗2019校招－网页搜索数据挖掘研究员笔试题目

本帖子中包含更多资源

站长推荐 /1