应届生求职网小程序
   主题推荐: “应届生求职网”微信小程序 更多推荐 今日十大    最新导读    应届生求职网微信小程序
搜索讨论区: 按拼音查找
查看: 1604|回复: 0
打印 上一主题 下一主题

[综合笔经] 搜狗2019校招-网页搜索数据挖掘研究员笔试题目

[复制链接]
hjyao      

主题

好友

112

积分

职员

跳转到指定楼层
1
发表于 2018-9-14 19:47 |显示全部楼层 |倒序浏览
[此帖已被设为精华]
刚刚做完搜狗2019校招-网页搜索数据挖掘研究员笔试,新鲜滚热辣的笔经。因为贴主是个技术渣渣,根本不会做,为了不浪费这次笔试,就把时间花在记录题目上了,想着攒一攒人品吧。
一共2小时做题时间。
4道问答题,3道编程题。

问答题1: 甲乙两人合租,要安排搞卫生的工作,一人负责一周的卫生,但是谁先开始打扫卫生谈不拢。现有一枚硬币,正面的概率是0.7,反面的概率是0.3。要求仅通过这一枚硬币,来设计一套公平的方案来决定谁先开始。

问答题2: 一个工厂的真实次品率为0.1%,现研制出一种快速次品检验方法。在次品零件中,该方法能检验出90%的零件是次品。但在正品中,该方法也检验出1%的零件是次品。问:
(1)该方法的检验准确率、召回率分别是多少(要求写出计算过程)
(2)如果检验该方法是一个分类模型,如何提高该方法的准确率。

问答题3: 要求一个网页搜索的query与url的相关程度。给出一个日志:query 搜索时间 url1 是否点击 点击时间 url2 是否点击 点击时间 url3 是否点击 点击时间 ......
(1)为了的求出query与url的相关程度,需要统计用户哪些行为特征
(2)还可以采集那些日志
(3)什么模型合适?为什么?如何构造训练数据?还可以用什么模型,把多个模型做比较。

问答题4:现有词性标注任务,“我 是 一 个 学生”,标注词性“代词 动词 数词 量词 名词”。 现有8000句人工标注的训练集,平均长度20个词。现有2种方法可以选择。
1. HMM
2. 单层200个隐层单元的LSTM模型
哪个模型比较好,原因是什么?

编程题1:数字序列题
要求该数字序列上一段最小的连续区间长度,要求该区间内正好包含了所有不同的数字。
input
10
1
1
3
4
6
6
5
1
3
3

output:
6 3
[2,7] [3,8] [4,9]

输出的第一个数字表示区间长度,第二个数字表示区间数量,并且标出区间的起始和终止位置


编程题2:矩阵计算题
input: [1,2]*[3;4]
output:11

input: 2*[1;2]*[3,4]+[1,2;3,4]
output:[7,10;15,20]


input: [2,3]+[4;5]
output:Error


分号表示分割行,逗号表示一行内各列的分割


编程题3:糖果游戏题



攒点人品,希望可以帮到人,或者帮到下一届的同学们吧。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册 QQ登录

x
+10
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 QQ登录

本版积分规则

关闭

站长推荐上一条 /1 下一条

应届生微信小程序|应届生求职网YingJieSheng.COM ( 沪ICP备12015550号-13 )

GMT+8, 2025-1-5 09:51

Powered by Discuz!

© 2001-2012 Comsenz Inc.

快速回复 返回顶部 返回列表