许多自然语言处理都涉及机器学习,所以理解机器学习的一些基本工具和技术是有益处的。有些工具已经在前几章中讨论过,有些还没有,但这里我们会讨论所有这些工具。
数据选择和特征工程会带来偏见的风险(用人类的话来说)。一旦我们把自己的偏见融入算法中,通过选择一组特定的特征,模型就会适应这些偏见并产生带有偏差的结果。如果我们足够幸运能在投入生产之前发现这种偏见,那么也需要投入大量的工作来消除这种偏见。例如,必须重新构建和重新训练整个流水线,以便能够充分利用分词器的新词汇表。我们必须重新开始。
一个例子是著名的Word2vec模型的数据和特征选择。Word2vec是针对大量的新闻报道进行训练的,从这个语料库中选择了大约100万个n-gram作为这个模型的词汇表(特征)。它产生了一个使数据科学家和语言学家兴奋的模型,后者能够对词向量(如“king − man + woman = queen”)进行数学运算。但随着研究的深入,在模型中也出现了更多有问题的关系。
例如,对于“医生 − 父亲 + 母亲 = 护士”这个表达式,“护士”的答案并不是人们希望的无偏见和合乎逻辑的结果。性别偏见在不经意间被训练到模型中。类似的种族、宗教甚至地理区域偏见在原始的Word2vec模型中普遍存在。谷歌公司的研究人员无意制造这些偏见,偏见存在于数据中,即他们训练Word2vec使用的谷歌新闻语料库中词使用统计的数据。
许多新闻报道只是带有文化偏见,因为它们是由记者撰写的,目的是让读者开心。这些记者描写的是一个存在制度偏见和现实生活中人们对待事件的偏见的世界。谷歌新闻中的词使用统计数据仅仅反映的是,在母亲当中当护士的数目要比当医生的多得多,同时在父亲当中当医生的数目比当护士的多得多。Word2vec模型只是为我们提供了一个窗口,让我们了解我们创建的世界。
幸运的是,像Word2vec这样的模型不需要标记训练数据。因此,我们可以自由选择任何喜欢的文本来训练模型。我们可以选择一个更平衡的、更能代表大家希望模型做出的信念和推理的数据集。当其他人躲在算法背后说他们只是按照模型做事时,我们可以与他们分享自己的数据集,这些数据集更公平地代表了一个社会,在这个社会里,我们渴望为每个人提供平等的机会。
当训练和测试模型时,大家可以依靠自己天生的公正感来帮助决定一个模型何时可以做出影响用户生活的预测。如果得到的模型以我们希望的方式对待所有用户,那么我们可以在晚上睡个好觉。它还可以帮助密切关注那些与大家不同的用户的需求,特别是那些通常处于社会不利地位的用户。如果需要更正式的理由来证明自己的行为,大家还可以学习更多关于统计学、哲学、伦理学、心理学、行为经济学和人类学的知识,来增强大家在本书中学到的计算机科学技能。
作为一名自然语言处理实践者和机器学习工程师,大家有机会训练出比人类做得更好的机器。老板和同事不会告诉大家应该在训练集中添加或删除哪些文本,大家自己有能力影响塑造整体社区和社会的机器的行为。
我们已经为大家提供了一些关于如何组装一个带有更少偏见和更公平的数据集的想法。现在,我们将展示如何使得到的模型与无偏见数据相拟合,以便它们在现实世界中精确和有用。
对于所有机器学习模型,一个主要的挑战是克服模型过度优异的表现。什么是“过度优异”呢?在处理所有模型中的样本数据时,给定的算法都可以很好地在给定数据集中找到模式。但是考虑到我们已经知道训练集中所有给定样本的标签(如果不知道其标签表明它不在训练集中),因此算法在训练样本的上述预测结果不会特别有用。我们真正的目的是利用这些训练样本来构建一个有泛化能力的模型,能够为一个新样本打上正确标签。尽管该样本与训练集的样本类似,但是它是训练集以外的样本。在训练集之外新样本上的预测性能就是我们想优化的目标。
我们称能够完美描述(并预测)训练样本的模型“过拟合”(overfit)(如图D-1所示)。这样的模型将很难或没有能力描述新数据。它不是一个通用的模型,当给出一个不在训练集中的样本时,很难相信它会做得很好。
每次提到5G,就感觉我们是最牛的,毕竟进入5G时代以后,就看到对我国5G技术各种...
从2016年微信朋友圈广告功能正式上线以来,对于很多商家来说可能是一个好消,但...
本文转载自公众号读芯术(ID:AI_Discovery)。 向神经网络展示大量的人和车的图片...
5G即将带来新的工业物联网机会。这就是制造业不应忽视5G对运营产生影响的原因。 ...
2020年是中国5G商用发展的关键期,5G生态建设、网络部署、人才培养、行业应用等...
11月4日,微信红包封面团队在公众号发文称,红包封面开放平台即将升级,个人也可...
今天又有了新变化。美国哥伦比亚特区联邦地区法院9月27日进行了裁决,表示TikTok...
Nali介绍 Nali 是一个可以自动解析这些工具stdout中的IP并附上所属ISP和地理信息...
如果你曾经和孩子们一起度过一个圣诞节的早晨,你可能会对电池产生一种微妙的感...
【51CTO.com原创稿件】本周四10月29日下午2点,DevRun开发者沙龙将造访山城重庆...