The Last Layer of NN for Classification - Softmax and Cross Entropy Loss

前言 在NLP中,分类也无处不在。从RNN与其变体,到Transformer、Bert等预训练模型,只要涉及到在词表中挑选单词,就可以使用分类任务的思路来解决。这里有一个定式:在深度学习模型中,最后一层凡是采用$\mathrm{Softmax+CrossEntropy Loss}$就一定是在分类。本文主要对这个组合的梯度进行计算,证明其巧妙之处,以加深自己对分类问题及其方法的理解。 [Read More]
Tags: 深度学习

Full Matrix Method of mini-batch Back Propagation in DNN

前言 在DNN的反向传播算法中,几乎所有教材都只使用单个样本(一个特征向量)进行相关公式的推导,而多个样本(也就是mini-batch,即多个特征向量组成的矩阵)反向传播的全矩阵方法对于理解“多样本”这一概念是非常重要的。所以花了一点时间推导了一下并记录在此,便于记忆,同时希望能对别人有所帮助。 [Read More]
Tags: 深度学习

Some tips of PyTorch

前言 在大三的时候已经使用PyTorch写过简单的DNN、CNN、预训练模型等,但当时只是被学分课(机器学习、计算机视觉)逼着写的,所以写完作业就基本不碰PyTorch了,也没有认真研究很多细节。现重新学习PyTorch,记录其很多重要但容易被忽略的细节,争取早日开始复现代码~ [Read More]
Tags: 深度学习

Machine Translation Notebook

前言 nlp实验室肖桐老师、朱靖波老师主编的《机器翻译-统计建模与深度学习方法(第二版)》前些天已经略读了一遍(自然是跳过了统计机器翻译那两章#手动狗头),再回头看时发现有很多知识又已经忘了,现打算再次精读此书,将遇到的所有重要的、需要推导或记忆的知识记录在本篇blog里,防止遗忘! [Read More]