Word2vec

Word2vec是一群用来产生词向量的相关模型。这些模型为浅层双层的神经网路，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。

训练完成之后，word2vec模型可以把每个词映射到一个向量，来表示词与词之间的关系。该向量为神经网络的隐藏层^[1]。

Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释^[2]。

Skip-grams和CBOW

CBOW把一个词从词窗剔除。在CBOW下给定 $n$ 词围绕着词 $w$ ，word2vec预测一个句子中其中一个缺漏的词 $c$ ，即以机率 $p(c|w)$ 来表示。相反地，Skip-gram给定词窗中的文本，预测当前的词 $p(w|c)$ 。

Word2vec用来建构整份文件（而分独立的词）的延伸应用已被提出^[3]，该延伸称为paragraph2vec或doc2vec，并且用C、Python^[4]^[5]和 Java/Scala^[6]实做成工具（参考下方）。Java和Python也支援推断文件嵌入于未观测的文件。

对word2vec框架为何做词嵌入如此成功知之甚少，约阿夫·哥德堡（Yoav Goldberg）和欧莫·列维（Omer Levy）指出word2vec的功能导致相似文本拥有相似的嵌入（用余弦相似性计算）并且和约翰·鲁伯特·弗斯的分布假说有关。