NLP面试高频10道笔试题分享|语料库|词频|词条|算法|上下文

NLP面试高频10道笔试题分享

2021-11-25 05:08:22　来源: 七月在线举报

分享至

问题1：在包含 N 个文档的语料库中，随机选择一个文档。该文件总共包含 T 个词，词条「数据」出现 K 次。如果词条「数据」出现在文件总数的数量接近三分之一，则 TF（词频）和 IDF（逆文档频率）的乘积的正确值是多少？

A、KT * Log(3)

B、K * Log(3) / T

C、T * Log(3) / K

D、Log(3) / KT

答案：B

解析：TF 的公式是 K/T，IDF 的公式是 log = log(1 / (⅓)) = log (3) 因此正确答案是 Klog(3)/T

问题2：参阅以下的文档词矩阵下面哪个文档包含相同数量的词条，并且在整个语料库中其中一个文档的词数量不等同于其他任何文档的最低词数量。

A、d1 和 d4

B、d6 和 d7

C、d2 和 d4

D、d5 和 d6

答案：C

解析：文档 d2 和 d4 包含 4 个词条并且不是词条最低数量 3。

问题3：参阅以下的文档词矩阵语料库中最常见和最稀少的词条分别是什么？

A、t4、t6

B、t3、t5

C、t5、t1

D、t5、t6

答案：A

解析：t4和t5出现的文档数最多，二者相比之下，t4出现的总次数较多，故最常见的词条是t4；t6只在 d3 和 d4 中出现，在语料库中出现的次数也最少，故最稀少的词条是t6。

问题4：参阅以下的文档词矩阵在整个语料库中使用最大次数的词和它的词频分别是？

A、t6，2/5

B、t3，3/6

C、t4，2/6

D、t1，2/6

答案：B

解析：t3 在整个语料库中的使用的最大次数是 3，t3 的词频是 3/(2+1+3)=3/6

问题5：下列哪种方法不是灵活文本匹配的一部分？

A、字符串语音表示（Soundex）

B、语音发声散列（Metaphone）

C、编辑距离算法（Edit Distance）

D、关键词哈希算法（Keyword Hashing）

答案：D

解析：除了关键词哈希算法，其它所有方法都用于灵活字串匹配

问题6：Word2vec 模型是一种用于给文本目标创建矢量标记的机器学习模型。对于Word2vec，它包含多个深度神经网络，这么说对么？

A、对

B、错

答案：B

解析：Word2vec 也包含预处理模型（preprocessing mode），它不属于深度神经网络。

问题7：关于无语境依赖关系图（context-free dependency graph），句子里有多少子决策树（sub-trees）？

A、3

B、4

C、5

D、6

答案：D

解析：依赖关系图中的子决策树可以被看做是拥有外部连接的节点，例如：Media, networking, play, role, billions, 和 lives 是子决策树的根。

问题8：文本分类模型组成部分的正确顺序是：

1. 文本清理（Text cleaning） 2. 文本标注（Text annotation） 3. 梯度下降（Gradient descent） 4. 模型调优（Model tuning） 5. 文本到预测器（Text to predictors）

A、12345

B、13425

C、12534

D、13452

答案：C

解析：正确的文本分类模型包含——文本清理以去除噪声，文本标注以创建更多特征，将基于文本的特征转换为预测器，使用梯度下降学习一个模型，并且最终进行模型调优。

问题9：下列那种模型可以被用于文本相似度（document similarity）问题？

A、在语料中训练一个由词到向量（word 2 vector）的模型来对文本中呈现的上下文语境进行学习

B、训练一个词包模型（a bag of words model）来对文本中的词的发生率（occurrence）进行学习

C、创建一个文献检索词矩阵（document-term matrix）并且对每一个文本应用余弦相似性

D、上述所有方法均可

答案：D

解析：word2vec 模型可在基于上下文语境的情况下用于测量文本相似度。词包模型（Bag Of Words）和文献检索词矩阵（document term matrix）可以在基于词条的情况下用来测量相似度。

问题10：下列哪些是语料库的可能性特征？

1. 文本中词的总数 2. 布尔特征——文本中词的出现 3. 词的向量标注 4. 语音标注部分 5. 基本依赖性语法 6. 整个文本作为一个特征

A、1

B、12

C、123

D、1234

E、12345

F、123456

答案：E

解析：除了全部文本作为特征这个选项，其余均可被用作文本分类特征，从而来对模型进行学习。

— 福利课程 —

主题：七月在线【Transformer与Bert特训4】课，原价299元，限时1元秒杀！

开课时间：2021年11月26日（本周五）

课程链接：https://www.julyedu.com/course/getDetail/370

课程内容主要包括:前馈神经网络、词嵌入技术、注意力机制、位置编码、Encoder、Decoder、LayerNorm、Masked LM、Next Sentence Prediction 等。

除此之外，本课程还增加了Transformer 与 BERT的案例讲解︰FAQbot和聊天机器人。

理论及实践的完美结合，通过全套的课程讲解，帮你在脑海中搭建模型的基本框架，让你彻底搞懂每一个知识点，从而提高你写代码的速度。

课程包括完善的【大咖授课】+【助教答疑】+【班主任督学】+【免费CPU云平台】服务，确保每一位小伙伴都能愉快的学习知识。

怎么样？心动了吧！在售价299元的课程，今天大家点击阅读原文即可1元购买，有兴趣的抓紧抢购，先报先占位！

免费资料&福利

最新大厂面试题

AI开源项目论文

NLP ( 自然语言处理 )

CV（计算机视觉）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

NLP面试高频10道笔试题分享

特斯拉又降价，知情人士:冲刺今年销售目标

挪威史上最大规模性丑闻 妇科医生20年强奸87名患者

挪威史上最大规模性丑闻 妇科医生20年强奸87名患者

杨瀚森这态度，是打不了NBA的...

爆料郑雨盛和女模特，女方非正常怀孕

刘煜辉最新演讲全文：蛇的策略

特斯拉限时优惠:Model Y仅23.99万起 还能5年0息

态度原创

婴儿是怎么知道这个人就是妈妈的呢？网友：居然是靠闻味儿，哈哈

总奖金10万！古树脐橙杯今晚开战，三大人族组队能否夺冠？

雷神银翼 F60 投影仪 1499 元首销，支持 800CVIA 亮度

俄方称在库尔斯克州上空击落多枚导弹及多架无人机

挪威史上最大规模性丑闻妇科医生20年强奸87名患者

挪威史上最大规模性丑闻妇科医生20年强奸87名患者

特斯拉限时优惠:Model Y仅23.99万起还能5年0息