0%

文本预处理-文本张量表示方法

文本预处理-文本张量表示方法

什么是文本张量表示

  • 将一段文本使用张量表示,其中一般将词汇表示成向量,称作词向量,再由各个词向量按顺序组成矩阵形成文本表示

如:

["人生", "该", "如何", "起头"]

==>

每个词对应矩阵中的一个向量

[[1.32, 4.32, 0.32, 5.2],

[3.1, 5.43, 0.34, 3.2],

[3.21, 5.32, 2, 4.32],

[2.54, 7.32, 5.12, 9.54]]

文本张量表示的作用

  • 将文本表示成张量(矩阵)形式,能够使语言文本可以作为计算机处理程序的输入,进行接下来一系列的解析工作

文本张量表示的方法

  • one-hot编码
  • Word2vec
  • Word Embedding

one-hot

什么是one-hot词向量表示

  • 又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其它元素都是0,不同词汇元素为0的位置不同,其中n的大小是整个语料中不同词汇的总数

如:

["改变", "要", "如何", "起手"]

==>

[[1, 0, 0, 0],

[0, 1, 0, 0],

[0, 0, 1, 0],

[0, 0, 0, 1]]

onehot编码实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
# 导入用于对象保存与加载的joblib
from sklearn.externals import joblib
# 导入keras中的词汇映射器Tokenizer
from tensorflow.keras.preprocessing.text import Tokenizer
# 假定vocab为语料集所有不同的词汇集合
vocab = {"周杰伦", "陈奕迅", "王力宏", "李宗盛", "吴亦凡", "鹿晗"}
# 实例化一个词汇映射器对象
t = Tokenizer(num_words=None, char_level=False)
# 使用映射器拟合现有文本数据
t.fit_on_texts(vocab)

for token in vocab:
zero_list = [0]*len(vocab)
# 使用映射器转换现有文本数据,每个词汇对应从1开始的自然数
# 返回样式如:[[2]],取出其中的数字需要使用[0][0]
token_index = t.texts_to_sequences([token])[0][0] - 1
zero_list[token_index] = 1
print(token, "的one-hot编码为:",zero_list)

# 使用joblib工具保存映射器,以便之后使用
tokenizer_path = "./Tokenizer"
joblib.dump(t, tokenizer_path)

周杰伦 的one-hot编码为: [1, 0, 0, 0, 0, 0] 李宗盛 的one-hot编码为: [0, 1, 0, 0, 0, 0] 陈奕迅 的one-hot编码为: [0, 0, 1, 0, 0, 0] 王力宏 的one-hot编码为: [0, 0, 0, 1, 0, 0] 吴亦凡 的one-hot编码为: [0, 0, 0, 0, 1, 0] 鹿 晗 的one-hot编码为: [0, 0, 0, 0, 0, 1] ['./Tokenizer']

onehot编码器的使用

1
2
3
4
5
6
7
8
9
10
11
12
13
# 导入对象保存与加载的joblib
from sklearn.externals import joblib
# 加载之前保存的Tokenizer,实例化一个t对象
t = joblib.load(tokenizer_path)
# 编码token为"周杰伦"
token = "周杰伦"
# 使用t获得token_index
token_index = t.texts_to_sequences([token])[0][0] - 1
# 初始化一个zero_list
zero_list = [0]*len(vocab)
# 令zero_list的对应索引为1
zero_list[token_index] = 1
print(token, "的one-hot编码为:", zero_list)

周杰伦 的one-hot编码为: [1, 0, 0, 0, 0, 0]

one-hot编码的优劣势

  • 优势:操作简单,容易理解
  • 劣势:完全割裂了词与词之间的联系,而且在大语料集下,每个向量的长度过大,占据大量内存

说明:

正因为one-hot编码明显劣势,这种编码方式被应用的地方越来越少,取而代之的是稠密向量的表示方法word2vec和word embedding

word2vec

什么是word2vec

  • 是一种流行的将词汇表示成向量的无监督训练方法,该过程将构建神经网络模型,将网络参数作为词汇的向量表示,它包含CBOW和skipgram两种训练模式

CBOW(Continuous bag of words)模式

  • 给定一段用于训练的文本语料,再选定某长度(窗口)作为研究对象,使用上下文词汇预测目标词汇

    分析:

    • 图中窗口大小为9,使用前后4个词汇对目标词汇进行预测

CBOW模式下的word2vec过程说明:

  • 假设我们给定的训练语料只有一句话:Hope can set you free,窗口大小为3,因此模型的第一个训练样本来自Hope can set,因为是CBOW模式,所以将使用Hope和set作为输入,can作为输出,在模型训练时,Hope、can、set等词汇都使用它们的one-hot编码,如图所示:每个one-hot编码的单词与各自的变换矩阵(即参数矩阵3x5,这里的3是指最后得到的词向量维度)相乘之后再相加,得到上下文表示矩阵(3x1)

  • 接着,将上下文表示矩阵与变换矩阵(参数矩阵5x3,所有的变换矩阵共享参数)相乘,得到5x1的结果矩阵,它将与我们真正的目标矩阵即can的one-hot编码矩阵(5x1)进行损失的计算,然后更新网络参数完成一次模型迭代

  • 最后,窗口按序向后移动,重新更新参数,直到所有语料被遍历完成,得到最终的变换矩阵(3x5),这个变换矩阵与每个词汇的one-hot编码(5x1)相乘,得到的3x1的矩阵就是该词汇的word2vec张量表示

skipgram模式

  • 给定一段用于训练的文本语料,再选定某段长度(窗口)作为研究对象,使用目标词汇预测上下文词汇

    分析:

    • 图中窗口大小为9,使用目标词汇对前后四个词汇进行预测

skipgram模式下的word2vec过程说明

  • 假设我们给定的训练语料只有一句话:Hope can set you free,窗口大小为3,因此模型的第一个训练样本来自Hope can set,因为是skipgram模式,所以将使用can作为输入,Hope和set作为输出,在模型训练时,Hope、can、set等词汇都使用它们的one-hot编码,如图所示:将can的one-hot编码与变换矩阵(即参数矩阵3x5,这里的3是指最后得到的词向量维度)相乘,得到目标词汇表示矩阵(3x1)

  • 接着,将目标词汇表示矩阵与多个变换矩阵(参数矩阵5x3)相乘,得到多个5x1的结果矩阵,它将与我们Hope和set对应的one-hot编码矩阵(5x1)进行损失的计算,然后更新网络参数完成一次模型迭代

  • 最后窗口按序向后移动,重新更新参数,直到所有语料被遍历完成,得到最终的变换矩阵即参数矩阵(3x5),这个变换矩阵与每个词汇的one-hot编码(5x1)相乘,得到的3x1的矩阵就是该词汇的word2vec张量表示

使用fasttext工具实现word2vec训练和使用

  1. 获取训练数据
  2. 训练词向量
  3. 模型超参数设定
  4. 模型效果检验
  5. 模型的保存与重加载
获取训练数据
  • 采用的数据是英语维基百科的部分网页信息,大小在300M左右

    1
    2
    3
    4
    5
    mkdir data
    wget -c http://mattmahoney.net/dc/enwik9.zip -P data
    unzip data/enwik9.zip -d data
    # 查看
    head -10 data/enwik9
    Wikipedia http://en.wikipedia.org/wiki/Main_Page ​ MediaWiki 1.6alpha first-letter

    MediaSpecial

  • 原始数据处理

    1
    2
    # 使用wikifil.pl文件处理脚本来清除XML/HTML格式的内容
    perl wikifil.pl data/enwik9 > data/fil9
  • 查看预处理后的数据

    1
    2
    # 查看前80个字符
    head -c 80 data/fil9

    anarchism originated as a term of abuse first used against early working class

训练词向量
1
2
3
4
import fasttext
# 使用fasttext的train_unsupervised(无监督训练方法)进行词向量训练
# 它的参数是数据集的持久化文件路径'data/fil9'
model = fasttext.train_unsupervised('data/fil9')
  • 查询单词对应的词向量

    1
    model.get_word_vector("the")

    array([ 0.28612754, 0.18887755, 0.12312672, -0.11358871, -0.04313999,

    ​ -0.03049271, -0.4231865 , -0.09762151, -0.2981492 , -0.21989156,

    ​ 0.01450618, 0.22954823, -0.11806235, 0.2104983 , -0.08250213,

    ​ -0.06598049, -0.10693331, 0.02772394, 0.02275106, -0.04281725,

    ​ 0.20697276, -0.17010634, 0.20779532, 0.20877212, -0.00896981,

    ​ 0.2956562 , 0.2354818 , -0.10447099, -0.16170514, 0.26910302,

    ​ 0.13694333, -0.29110473, 0.16928492, -0.10917187, 0.24259156,

    ​ 0.36317155, -0.09099762, 0.19189015, -0.06971502, 0.18211566,

    ​ -0.03056046, 0.23826727, 0.08990981, -0.00378818, 0.25064468,

    ​ -0.2872312 , 0.15523386, -0.00560856, -0.12181274, -0.01934635,

    ​ 0.13876605, -0.29790625, 0.12139253, 0.05811704, -0.01424001,

    ​ -0.14908412, -0.23952171, -0.02370461, 0.34857494, 0.05483944,

    ​ -0.04003375, 0.22713795, 0.01177837, 0.13517821, 0.03359624,

    ​ 0.04378683, -0.02268096, -0.18240325, 0.13975719, 0.25354248,

    ​ 0.06034014, -0.0643115 , 0.16107267, 0.06664212, -0.2791056 ,

    ​ 0.07975964, -0.13255674, -0.10583606, -0.17299654, -0.09542597,

    ​ -0.02097557, -0.12210673, -0.01789324, 0.23003705, -0.02801042,

    ​ -0.22421488, 0.2048472 , -0.4755632 , -0.1295094 , -0.02021092,

    ​ 0.08898196, -0.12367474, -0.10409563, -0.12775469, 0.03284111,

    ​ -0.22912335, -0.01330527, -0.4232167 , 0.00049854, -0.2794912 ],

    ​ dtype=float32)

模型超参数设定
  • 在训练词向量过程中,我们可以设定很多常用超参数来调节我们的模型效果,如:

    • 无监督训练模式:'skipgram'或者'cbow',默认为'skipgram',在实践中,skipgram模式在利用子词方面比cbow更好
    • 词嵌入维度dim:默认为100,但随着语料库的增大,词嵌入的维度往往也要更大
    • 数据循环次数epoch:默认为5,但当数据集足够大,可能不需要那么多次
    • 学习率lr:默认为0.05,根据经验,建议选择[0.01, 1]范围内
    • 使用线程数thread:默认为12线程,一般建议和CPU核数相同
    1
    model = fasttext.train_unsupervised('data/fil9', 'cbow', dim=300, epoch=1, lr=0.1, thread=8)
模型效果检验
  • 检查单词向量质量的一种简单方法就是查看其邻近单词,通过我们主观来判断这些邻近单词是否与目标单词相关
  • 查找"运动"的邻近单词,可以发现"体育网","运动汽车","运动服"等
1
model.get_nearest_neighbors('sports')

[(0.853657603263855, 'sport'), (0.8383333086967468, 'sporting'), (0.8300549387931824, 'sportsnet'), (0.809310793876648, 'sportsplex'), (0.8088512420654297, 'athletics'), (0.807535707950592, 'sportswomen'), (0.8

067726492881775, 'sportscar'), (0.7960886359214783, 'sportsground'), (0.7926499247550964, 'sportscars'), (0.7785360813140869, 'motorsports')]

1
model.get_nearest_neighbors('music')

[(0.8897189497947693, 'musics'), (0.8462624549865723, 'musical'), (0.8168190121650696, 'musicman'), (0.8151978850364685, 'musico'), (0.810080885887146, 'musices'), (0.808333158493042, 'emusic'), (0.776083827018

7378, 'folksongs'), (0.76759272813797, 'orchestras'), (0.7664333581924438, 'musican'), (0.7638934254646301, 'musicali')]

模型的保存与重加载
1
2
3
model.save_model('fil9.bin') # 保存
model = fasttext.load_model('fil9.bin') # 加载
model.get_word_vector("the")

word embedding

什么是word embedding(词嵌入)

  • 通过一定的方式将词汇映射到指定维度(一般是更高维度)的空间
  • 广义的word embedding包括所有密集词汇向量的表示方法,如之前学习的word2vec,即可认为是word embedding的一种
  • 狭义的word embedding是指在神经网络中加入的embedding层,对整个网络进行训练的同时产生的embedding矩阵(embedding层的参数),这个embedding矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵

word embedding的可视化分析

  • 通过tensorboard可视化嵌入和词向量

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    # 导入torch和tensorboard的摘要写入方法
    import torch
    import json
    from torch.utils.tensorboard import SummaryWriter
    # 实例化一个摘要定稿对象
    writer = SummaryWriter()
    # 随机初始化一个100x5的矩阵,认为它是已经得到的词嵌入矩阵
    embedded = torch.randn(100, 50)
    # 导入中文词汇文件,形成meta列表原始词汇
    meta = list(map(lambda x: x.strip(), fileinput.FileInput('./vocab100.csv')))
    writer.add_embedding(embedded, metadata=meta)
    writer.close()

  • 在终端启动tensorboard服务

    1
    tensorboad --logdir runs --host 0.0.0.0