sheng的学习笔记-【中】【吴恩达课后测验】Course 5 -序列模型 - 第二周测验 - 自然语言处理与词嵌入
课程5_第2周_测验题
目录
第一题
1.假设你为10000个单词学习词嵌入,为了捕获全部范围的单词的变化以及意义,那么词嵌入向量应该是10000维的。
A. 【 】正确
B. 【 】错误
答案:
B.【 √ 】错误
第二题
2.什么是t-SNE?
A. 【 】一种非线性降维算法
B. 【 】一种能够解决词向量上的类比的线性变换
C. 【 】一种用于学习词嵌入的监督学习算法
D. 【 】一个开源序列模型库
答案:
A.【 √ 】一种非线性降维算法
第三题
3.假设你下载了一个已经在一个很大的文本语料库上训练过的词嵌入的数据,然后你要用这个词嵌入来训练RNN并用于识别一段文字中的情感,判断这段文字的内容是否表达了“快乐”。那么即使“欣喜若狂”这个词没有出现在你的小训练集中,你的RNN也会认为“我欣喜若狂”应该被贴上
y
=
1
y = 1
y=1的标签。
A. 【 】正确
B. 【 】错误
答案:
A.【 √ 】正确
第四题
4.对于词嵌入而言,下面哪一个(些)方程是成立的?
A. 【 】 e b o y − e g i r l ≈ e b r o t h e r − e s i s t e r e_{boy}−e_{girl} \approx e_{brother}−e_{sister} eboy−egirl≈ebrother−esister
B. 【 】 e b o y − e g i r l ≈ e s i s t e r − e b r o t h e r e_{boy}−e_{girl} \approx e_{sister}−e_{brother} eboy−egirl≈esister−ebrother
C. 【 】 e b o y − e b r o t h e r ≈ e g i r l − e s i s t e r e_{boy} - e_{brother} \approx e_{girl} - e_{sister} eboy−ebrother≈egirl−esister
D. 【 】 e b o y − e b r o t h e r ≈ e s i s t e r − e g i r l e_{boy} - e_{brother} \approx e_{sister} - e_{girl} eboy−ebrother≈esister−egirl
答案:
A.【 √ 】 e b o y − e g i r l ≈ e b r o t h e r − e s i s t e r e_{boy}−e_{girl} \approx e_{brother}−e_{sister} eboy−egirl≈ebrother−esister
C.【 √ 】 e b o y − e b r o t h e r ≈ e g i r l − e s i s t e r e_{boy} - e_{brother} \approx e_{girl} - e_{sister} eboy−ebrother≈egirl−esister
第五题
5.设 E E E为嵌入矩阵, e 1234 e_{1234} e1234对应的是词“1234”的独热向量,为了获得1234的词嵌入,为什么不直接在Python中使用代码 E ∗ e 1234 E∗e_{1234} E∗e1234呢?
A. 【 】因为这个操作是在浪费计算资源
B. 【 】因为正确的计算方式是 E T ∗ e 1234 E^T ∗ e_{1234} ET∗e1234
C. 【 】因为它没有办法处理未知的单词 ( < U N K > ) (<UNK>) (<UNK>)
D. 【 】以上全都不对,因为直接调用 E ∗ e 1234 E∗e_{1234} E∗e1234是最好的方案
答案:
A.【 √ 】因为这个操作是在浪费计算资源
第六题
6.在学习词嵌入时,我们创建了一个预测 P ( t a r g e t ∣ c o n t e x t ) P(target \mid context) P(target∣context)的任务,如果这个预测做的不是很好那也是没有关系的,因为这个任务更重要的是学习了一组有用的嵌入词。
A. 【 】正确
B. 【 】错误
答案:
B.【 √ 】错误
第七题
7.在word2vec算法中,你要预测 P ( t ∣ c ) P(t \mid c) P(t∣c),其中 t t t是目标词(target word), c c c是语境词(context word)。你应当在训练集中怎样选择 t t t与 c c c呢?
A. 【 】 c c c与 t t t应当在附近词中
B. 【 】 c c c在 t t t前面的一个词
C. 【 】 c c c是 t t t之前句子中所有单词的序列
D. 【 】 c c c是 t t t之前句子中几个单词的序列
答案:
A.【 √ 】 c c c与 t t t应当在附近词中
第八题
8.假设你有1000个单词词汇,并且正在学习500维的词嵌入,word2vec模型使用下面的softmax函数,以下说法中哪一个(些)是正确的?
P ( t ∣ c ) = e θ t T e c ∑ t ′ = 1 10000 e θ t ′ T e c P(t \mid c)=\frac{e^{\theta_t^T e_c}}{\sum_{t'=1}^{10000} e^{\theta_{t'}^T e_c}} P(t∣c)=∑t′=110000eθt′TeceθtTec
A. 【 】 θ t \theta_t θt与 e c e_c ec都是500维的向量
B. 【 】 θ t \theta_t θt与 e c e_c ec都是10000维的向量
C. 【 】 θ t \theta_t θt与 e c e_c ec都是通过Adam或梯度下降等优化算法进行训练的
D. 【 】训练之后, θ t \theta_t θt应该非常接近 e c e_c ec,因为t和c是一个词
答案:
A.【 √ 】 θ t \theta_t θt与 e c e_c ec都是500维的向量
C.【 √ 】 θ t \theta_t θt与 e c e_c ec都是通过Adam或梯度下降等优化算法进行训练的
第九题
9.假设你有10000个单词词汇,并且正在学习500维的词嵌入,GloVe模型最小化了这个目标,以下说法中哪一个(些)是正确的?
min ∑ i = 1 10 , 000 ∑ j = 1 10 , 000 f ( X i j ) ( θ i T e j + b i + b ′ j − l o g X i j ) 2 \min \sum^{10,000}_{i=1}\sum^{10,000}_{j=1}f(X_{ij})(\theta^T_ie_j+b_i+b′_j−logX_{ij})^2 mini=1∑10,000j=1∑10,000f(Xij)(θiTej+bi+b′j−logXij)2
A. 【 】 θ i \theta_i θi与 e j e_j ej应当初始化为0
B. 【 】 θ i \theta_i θi与 e j e e_je eje应当使用随机数进行初始化
C. 【 】 X i j X_{ij} Xij是单词i在j中出现的次数
D. 【 】加权函数 f ( . ) f(.) f(.)必须满足 f ( 0 ) = 0 f(0)=0 f(0)=0
答案:
B.【 √ 】 θ i \theta_i θi与 e j e e_je eje应当使用随机数进行初始化
C.【 √ 】 X i j X_{ij} Xij是单词i在j中出现的次数
D.【 √ 】加权函数 f ( . ) f(.) f(.)必须满足 f ( 0 ) = 0 f(0)=0 f(0)=0
第十题
10.你已经在文本数据集 m 1 m_1 m1上训练了词嵌入,现在准备将它用于一个语言任务中,对于这个任务,你有一个单独标记的数据集 m 2 m_2 m2,请记住,使用词嵌入是一种迁移学习的形式。在以下那种情况中,词嵌入会有帮助?
A. 【 】 m 1 ≫ m 2 m_1 \gg m_2 m1≫m2
B. 【 】 m 1 ≪ m 2 m_1 \ll m_2 m1≪m2
答案:
A.【 √ 】 m 1 ≫ m 2 m_1 \gg m_2 m1≫m2