単語ベクトルとは、単語を意味情報に基づいて数値ベクトルとして表現したもので、Word Embedding とも呼ばれる。自然言語処理では文字列をそのまま扱えないため、単語を数値化する必要があるが、単語ベクトルは単なる文字コードではなく、意味的な近さや関係性が空間上の距離として表現される点が特徴である。通常は数百次元の実数ベクトルとして表され、類似度計算やクラスタリングなど言語処理の基盤として利用される。
代表的な手法には Word2Vec があり、周囲の文脈から単語を予測する CBOW と、単語から周囲を予測する Skip-gram によって意味的特徴を捉えたベクトルを学習する。GloVe は単語の共起統計にもとづいてベクトル化を行う方式で、大規模コーパスにおける共起関係を反映した表現を得ることができる。さらに、Transformer アーキテクチャを用いたモデルでは、文脈に応じて単語の表現が変化する“文脈依存埋め込み”が生成され、同じ単語でも置かれた文脈に応じて異なる意味を反映できるようになった。
ParsleyLab:Excel形式で柔軟に記録しつつ、組織内で簡単かつ自由にデータを蓄積・活用できるソリューション