2 / 15

词向量进阶

在上一部分中，我们学习了Word2Vec的基本框架，特别是Skip-gram模型。该模型通过最大化对数似然来学习词向量：

J(\theta) = \frac{1}{T} \sum_{t=1}^{T} \sum_{\substack{-m \leq j \leq m \\ j \neq 0}} \log P(w_{t+j} | w_t)

其中条件概率使用Softmax函数定义：

P(o | c) = \frac{\exp(\vec{u}_o^T \vec{v}_c)}{\sum_{w \in V} \exp(\vec{u}_w^T \vec{v}_c)}

然而，这个公式存在一个严重的计算瓶颈：分母需要对整个词汇表求和。对于包含10万词的词汇表，每次更新参数都需要计算10万次指数和点积，这在大规模语料训练中是不可接受的。

面对朴素Softmax的计算困境，研究者们开发了多种巧妙的优化策略。负采样（Negative Sampling）将多分类问题转化为多个二分类，每次只需要计算少量词的概率，而非整个词汇表——这使得Word2Vec能在数十亿词的语料上高效训练。 分层Softmax（Hierarchical Softmax）则利用树结构，将计算复杂度从 $O(|V|)$ 降至 $O(\log |V|)$ ，就像用二叉搜索代替线性搜索一样高效。

而GloVe算法提供了一个全新的视角——与其用神经网络在局部窗口上学习，为什么不先统计全局的词共现信息，然后直接对共现矩阵进行因式分解？这种“全局统计+局部上下文”的思想让GloVe在许多任务上与Word2Vec效果相当甚至更好。

这部分我们将深入探讨词向量的评估方法——如何量化测量词向量的质量？词类比任务（“国王-男人+女人=女王”）能否真正反映语义理解？词向量空间有什么几何性质？这些问题的答案将帮助我们更深入地理解词嵌入的本质。

负采样

在原始的Skip-gram模型中，对于每个训练样本（中心词 $c$ ，上下文词 $o$ ），损失函数为：

\mathcal{L} = -\log P(o | c) = -\log \frac{\exp(\vec{u}_o^T \vec{v}_c)}{\sum_{w \in V} \exp(\vec{u}_w^T \vec{v}_c)}

让我们分析这个公式的计算代价。在前向传播中，分母需要对整个词汇表的 $|V|$ 个词计算点积和指数运算。在反向传播中，梯度会流向所有 $|V|$ 个上下文词向量，每个都需要更新。因此，每个训练样本的总复杂度是 $O(|V|)$ ——对于一个包含10万词的词汇表，每次参数更新都要计算10万次！

当我们在包含数十亿词的大规模语料上训练时，这种复杂度完全不可接受。假设语料有10亿词，窗口大小为10，那么训练样本数量约为100亿（10亿词×10个上下文位置）。如果每个样本需要 $O(10^5)$ 次运算，总计算量达到 $10^{15}$ 次运算——即使在现代GPU上也需要数月时间。这就是Word2Vec面临的计算瓶颈。

负采样

负采样（Negative Sampling）由Mikolov等人在2013年提出，核心思想是将多分类问题转化为二分类问题。

原问题是一个多分类任务：在 $|V|$ 个候选词中找出正确的上下文词。负采样将其转化为更简单的二分类任务：判断给定的词对 $(c, w)$ 是否真正来自语料中的上下文窗口。

具体来说，对于每个真实的词对——中心词 $c$ 和其上下文词 $o$ ——我们标记为正样本（标签为1）。然后随机采样 $k$ 个词（通常 $k=5$ 到 $k=20$ ），这些词不是 $c$ 的真实上下文，标记为负样本（标签为0）。现在任务变成了训练一个二分类模型，学习区分真实共现和随机组合。

这个转化的妙处在于：我们不再需要归一化整个词汇表，只需要对 $k+1$ 个词（1个正样本+ $k$ 个负样本）计算概率。计算复杂度从 $O(|V|)$ 降到 $O(k)$ ，而 $k$ 通常远小于 $∣$ ——这带来了数千倍的加速！

数学推导

目标函数

对于中心词 $c$ 和词 $w$ ，定义它们共现的概率为：

P(D=1 | c, w) = \sigma(\vec{u}_w^T \vec{v}_c) = \frac{1}{1 + \exp(-\vec{u}_w^T \vec{v}_c)}

其中 $\sigma$ 是sigmoid函数， $D=1$ 表示 $(c, w)$ 是真实共现对。

相应地，不共现的概率为：

P(D=0 | c, w) = 1 - \sigma(\vec{u}_w^T \vec{v}_c) = \sigma(-\vec{u}_w^T \vec{v}_c)

负采样目标函数

对于中心词 $c$ 和上下文词 $o$ ，我们希望达到两个目标：让模型认为真实的词对 $(c, o)$ 确实共现（最大化其概率），同时让模型认为随机采样的 $k$ 个负样本 $(c, w_i)$ 不太可能共现（最小化其概率）。这两个目标可以用一个统一的目标函数表达：

J_{\text{NEG}}(c, o) = -\log \sigma(\vec{u}_o^T \vec{v}_c) - \sum_{i=1}^{k} \mathbb{E}_{w_i \sim P_n(w)} \left[ \log \sigma(-\vec{u}_{w_i}^T \vec{v}_c) \right]

其中：

$P_n(w)$ 是负采样分布
$k$ 是负样本数量，通常取5-20

直观地理解这个目标函数：第一项 $-\log \sigma(\vec{u}_o^T \vec{v}_c)$ 鼓励真实上下文词的sigmoid输出接近1，即应该是一个大的正数。第二项鼓励负样本词的sigmoid输出接近0，即应该是负数或接近0。通过最小化这个目标，模型学会让语义相关的词向量相近（点积大），不相关的词向量疏远（点积小）。

梯度计算

对中心词向量 $\vec{v}_c$ 求偏导：

\frac{\partial J_{\text{NEG}}}{\partial \vec{v}_c} = -\frac{\partial}{\partial \vec{v}_c} \log \sigma(\vec{u}_o^T \vec{v}_c) - \sum_{i=1}^{k} \frac{\partial}{\partial \vec{v}_c} \log \sigma(-\vec{u}_{w_i}^T \vec{v}_c)

利用sigmoid函数的导数性质 $\frac{d}{dx}\log \sigma(x) = 1 - \sigma(x)$ ：

\frac{\partial J_{\text{NEG}}}{\partial \vec{v}_c} = -(1 - \sigma(\vec{u}_o^T \vec{v}_c)) \vec{u}_o + \sum_{i=1}^{k} (1 - \sigma(-\vec{u}_{w_i}^T \vec{v}_c)) \vec{u}_{w_i}

= (\sigma(\vec{u}_o^T \vec{v}_c) - 1) \vec{u}_o + \sum_{i=1}^{k} \sigma(\vec{u}_{w_i}^T \vec{v}_c) \vec{u}_{w_i}

从计算复杂度看，这是一个巨大的胜利。原始Softmax每次更新需要 $O(|V|)$ 次运算——对10万词的词汇表就是10万次。负采样只需要 $O(k)$ 次运算，而 $k$ 通常取5到20，比 $|V|$ 小几千倍甚至上万倍。这不仅加速了训练，也使得在普通硬件上训练大规模词向量成为可能——Mikolov等人在一台机器上用一天时间训练了包含数十亿词的语料，这在Softmax时代是不可想象的。

负采样分布的选择

如何选择负样本至关重要。Mikolov等人提出使用单词频率的 $\frac{3}{4}$ 次方：

P_n(w) = \frac{f(w)^{3/4}}{\sum_{w' \in V} f(w')^{3/4}}

其中 $f(w)$ 是词 $w$ 在语料中的频率。

为什么使用 $\frac{3}{4}$ 次方？

均匀分布 ( $P_n(w) = \frac{1}{|V|}$ )：所有词被采样的概率相同，但这会导致高频词（如"的"、"了"）被过度采样
原始频率 ( $P_n(w) = f(w)$ )：按词频采样，但高频词占主导，低频词几乎不被采样

数值示例：假设三个词的频率分布为：

$f(\text{的}) = 0.1$
$f(\text{学习}) = 0.001$
$f(\text{量子}) = 0.0001$

不同采样策略下的概率：

词	原始频率	$\frac{3}{4}$ 次方后	提升比例
的	0.1	0.178	1.78x
学习	0.001	0.0056	5.6x
量子	0.0001	0.00178	17.8x

可见， $\frac{3}{4}$ 次方显著提升了低频词的采样概率。

分层Softmax

分层Softmax（Hierarchical Softmax）是另一种加速训练的方法，通过将词汇表组织成二叉树结构，将 $O(|V|)$ 的复杂度降至 $O(\log |V|)$ 。

分层Softmax

树结构设计

哈夫曼树：根据词频构建哈夫曼树，高频词距离根节点更近。

每个词是叶子节点
每个内部节点对应一个向量（称为路径向量）
从根到叶子的路径唯一确定一个词

示例树结构：


          根(θ₁)
         /     \
      (θ₂)    (θ₃)
      /  \      /  \
    w₁   w₂   w₃   w₄

概率计算

对于词 $w$ ，定义从根到 $w$ 的路径为 $\text{path}(w) = (n_1, n_2, \ldots, n_L)$ ，其中是根，是的父节点。

在每个内部节点 $n$ ，做一个二分类决策：

向左走：概率 $\sigma(\vec{\theta}_n^T \vec{v}_c)$

词 $w$ 的概率是路径上所有决策概率的乘积：

P(w | c) = \prod_{i=1}^{L-1} \sigma\left( [\![n_{i+1} = \text{left}(n_i)]\!] \cdot \vec{\theta}_{n_i}^T \vec{v}_c \right)

其中 $[\![条件]\!]$ 是指示函数，条件为真时为1，否则为-1。

优缺点分析

优势：

计算复杂度显著降低： $O(\log |V|)$
不需要负采样
理论上严格的概率模型

劣势：

需要预先构建树结构
更新路径向量的梯度计算较复杂
实践中负采样通常更受欢迎（更简单、效果相当）

GloVe算法

动机与核心思想

GloVe（Global Vectors for Word Representation）由斯坦福团队（Pennington, Socher, Manning, 2014）提出，旨在结合两类方法的优势：

计数方法（如LSA）：

利用全局共现统计信息
训练速度快
但在词类比任务上表现较差

预测方法（如Word2Vec）：

利用局部窗口信息
词类比任务表现好
但未充分利用全局统计

GloVe模型推导

共现矩阵

首先构建词-词共现矩阵 $X$ ：

$X_{ij}$ ：词 $i$ 和词 $j$ 在窗口内共现的次数
$X_i = \sum_k X_{ik}$ ：词的总共现次数

目标函数设计

我们希望学习词向量，使得它们的点积与共现概率的比值相关。设计函数 $F$ ：

F(\vec{w}_i, \vec{w}_j, \tilde{\vec{w}}_k) = \frac{P_{ik}}{P_{jk}}

为了使向量空间具有线性结构，要求 $F$ 满足：

F(\vec{w}_i - \vec{w}_j, \tilde{\vec{w}}_k) = \frac{P_{ik}}{P_{jk}}

进一步，假设 $F$ 只依赖于向量点积：

F((\vec{w}_i - \vec{w}_j)^T \tilde{\vec{w}}_k) = \frac{F(\vec{w}_i^T \tilde{\vec{w}}_k)}{F(\vec{w}_j^T \tilde{\vec{w}}_k)}

解这个函数方程，得到 $F = \exp$ ，因此：

\vec{w}_i^T \tilde{\vec{w}}_k = \log P_{ik} = \log X_{ik} - \log X_i

最终目标函数

引入偏置项 $b_i$ 和 $\tilde{b}_k$ 来吸收 $\log X_i$ ：

\vec{w}_i^T \tilde{\vec{w}}_k + b_i + \tilde{b}_k = \log X_{ik}

加入权重函数 $f(X_{ij})$ 来处理不同频率的共现对，最终目标函数为：

J = \sum_{i,j=1}^{|V|} f(X_{ij}) \left( \vec{w}_i^T \tilde{\vec{w}}_j + b_i + \tilde{b}_j - \log X_{ij} \right)^2

权重函数 $f(X_{ij})$ ：

f(x) = \begin{cases} (x / x_{\max})^{\alpha} & \text{if } x < x_{\max} \\ 1 & \text{otherwise} \end{cases}

通常取 $x_{\max} = 100$ ， $\alpha = 0.75$ 。

权重函数的作用：

稀有共现（ $X_{ij}$ 很小）：权重较小，避免噪声影响
极高频共现（如停用词）：权重被截断，避免主导训练
中等频率共现：权重较大，是学习的主要信号

GloVe训练算法


算法：GloVe训练
输入：共现矩阵 X, 向量维度 d, 迭代次数 epochs
输出：词向量 W, W̃
 
1. 初始化 W, W̃, b, b̃ 为小随机值
2. for epoch = 1 to epochs:
3.     for (i, j) where X_ij > 0:
4.         计算权重 w_ij = f(X_ij)
5.         计算梯度：

GloVe vs. Word2Vec

特性	Word2Vec	GloVe
方法类型	预测方法	计数+预测
信息利用	局部窗口	全局统计
训练数据	原始文本	共现矩阵
目标函数	对数似然	加权最小二乘
训练速度	较慢	较快
内存占用	较小	较大（需存储矩阵）
性能	优秀	优秀且稳定

代码实现

带负采样的Skip-gram实现


import torch
import torch.nn as nn
import numpy as np
from collections import Counter
 
class SkipGramNegSampling(nn.Module):
    """带负采样的Skip-gram模型"""
    
    def __init__(self, vocab_size, embedding_dim):
        super(SkipGramNegSampling, self).__init__()
        
        self.vocab_size = vocab_size

简单的GloVe实现


import torch
import torch.nn as nn
import numpy as np
from scipy import sparse
 
class GloVeModel(nn.Module):
    """GloVe模型实现"""
    
    def __init__(self, vocab_size, embedding_dim):
        super(GloVeModel, self).__init__()
        
        self.vocab_size = vocab_size
        self

词向量评估

内在评估方法

词类比任务

任务定义：给定词对 $(a, b)$ 和词 $c$ ，找出词 $d$ 使得“ $a$ 之于 $b$ 正如 $c$ 之于 $d$ ”。

示例：

语义类比：“国王” - “男人” + “女人” ≈ “女王”
句法类比：“慢” - “慢慢” + “快” ≈ “快快”

评估方法：

d^* = \arg\max_{d \in V} \frac{(\vec{v}_b - \vec{v}_a + \vec{v}_c)^T \vec{v}_d}{||\vec{v}_b - \vec{v}_a + \vec{v}_c|| \cdot ||\vec{v}_d||}

排除 $a, b, c$ 本身，计算余弦相似度最高的词。

标准数据集：

Google Analogy Dataset：19,544个语义和句法类比
BATS（Bigger Analogy Test Set）

词相似度任务

任务定义：计算词对之间的相似度，与人类标注相似度比较。

评估指标：Spearman相关系数

标准数据集：

WordSim-353
SimLex-999
中文：WordSim-296 (Chinese)

计算方法：

\text{similarity}(w_1, w_2) = \frac{\vec{v}_{w_1} \cdot \vec{v}_{w_2}}{||\vec{v}_{w_1}|| \cdot ||\vec{v}_{w_2}||}

外在评估方法

将词向量作为特征用于下游任务，评估任务性能：

命名实体识别（NER）：识别人名、地名、组织名等
词性标注（POS Tagging）：标注词的语法类别
情感分析：判断文本的情感倾向
文本分类：将文本分配到预定义类别

评估指标：准确率、F1分数等

评估代码示例


import numpy as np
from scipy.stats import spearmanr
 
def evaluate_analogy(word_vectors, vocab, test_cases):
    """
    评估词类比任务
    
    Args:
        word_vectors: 词向量矩阵 (vocab_size, embedding_dim)
        vocab: 词到索引的字典
        test_cases: [(a, b, c, d)] 类比测试用例
    
    Returns:
        准确率
    """
    correct = 0
    total = 0
    
    for a, b, c, d in test_cases:

练习与思考

解释为什么负采样能够大幅降低计算复杂度。从目标函数的角度分析原始Softmax和负采样的区别。
在负采样中，为什么使用 $f(w)^{0.75}$ 而不是原始词频 $f(w)$ 作为采样分布？这对高频词和低频词的训练有什么影响？
GloVe的权重函数 $f(X_{ij})$ 在时递增，在时截断为1。解释这种设计的合理性。

\frac{d}{dx}\log \sigma(x) = 1 - \sigma(x)

实现一个高效的负采样器，使用别名采样（Alias Sampling）方法，将采样复杂度从 $O(|V|)$ 降至 $O(1)$ 。


class AliasNegativeSampler:
    """使用别名采样的高效负采样器"""
    def __init__(self, word_counts, power=0.75):
        # 你的实现
        pass
    
    def sample(self, k):
        """O(1)复杂度采样k个负样本"""
        pass

在实际数据集上训练并比较Word2Vec和GloVe：

使用中文维基百科语料
在词类比和词相似度任务上评估
分析两种方法的性能差异

实现一个词向量可视化工具，使用t-SNE将高维词向量投影到2D平面，观察词聚类现象。


from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
 
def visualize_embeddings(word_vectors, words, output_file='embeddings.png'):
    """
    可视化词向量
    
    Args:
        word_vectors: 词向量数组 (n, dim)
        words: 词列表
        output_file: 输出图片路径
    """
    # 你的实现
    pass

接下来

这节课我们总结了词向量学习的核心优化方法，包括负采样、分层Softmax和GloVe等技术，它们大幅降低了模型计算复杂度并提升了训练效率。这些方法实际上都在利用词语的共现统计信息，通过合适的采样分布设计、合理的模型结构或全局统计，优化词向量的表达能力，并通过词类比、词相似度等任务进行评估。

然而，传统静态词向量存在一些局限，如无法区分一词多义、难以处理未登录词（OOV）及缺乏对句子和文档级别语义的建模。因此，子词模型和上下文动态建模成为后续研究方向。下一节我们将回顾一些神经网络的基础知识，为深入学习RNN、LSTM等更强大的序列建模方法奠定基础。

V

∣

|V|

词向量进阶 - 负采样与GloVe | 自在学