本期嘉宾介绍:
A7 ——自然语言分析研究员
星晨 ——芯片工程师
现工作生活于英国
节目简介:
2020年,一位青年女性计算语言学学者,在经费不(没)足(有)的情况下,带领另外两位来自不同领域的青年科学工作者,用“手搓”的方式,耗时近一年,“搓”出了第一个中文的,关于网络上针对女性的性别歧视言论数据集。这个数据集基于新浪微博内容产生,可以用于大语言模型训练,也可以用作其他领域的研究。据此,他们发表了一篇相关论文。
数据集地址:zenodo.org
这期节目,我们邀请到了这篇论文的一作与二作,请她们来聊聊,在她们眼中,到底什么是针对女性的性别歧视言论?以及她们在“手搓”数据集的过程中,发生的一些趣事。
本期节目后半部彩蛋:二位“手搓”数据集的时候,适逢二位的“热恋期”。如今二位已经结婚一年有余,她们在回顾那段时光的同时,也跟我们聊了聊她们日常的相处之道。
特别感谢:余赣宁先生为本节目提供的开场鼓声。
0:00 节目开始,嘉宾介绍
5:02 数据集介绍:SWSR——新浪微博关于女性性别歧视的相关数据集
6:44 如今有了更多同类型数据集么?同类型的数据集与此数据集的差异。
10:11 这个数据集可以应用到什么地方?
11:59 为何这类型数据集一直没有太大的推进呢?
16:16 何为针对女性的歧视言论呢?数据集打标分类的维度为何?
21:53 用具体的例子来说明打标的维度,为何当初选择新浪微博作为数据抓取平台?
28:04 做标注的工作——“很难评”。中文语言博大精深,表情包与词汇齐飞,需要加以鉴别。
33:23 只有三个人做标注的情况下,如何确保数据集标注的'客观性“与”公平性“?标注工作的困难性与复杂性
39:03 现在还有新做相关数据集么?研究现状介绍——经费充足后,制作相关数据集有了长足进步。大家当初因为制作数据集,学会了很多新词。
52:20 “手搓”数据集时期,也是二位感情突飞猛进的时期,标数据集对增进你们的情感有帮助么?
1:03:07 由信息不对称聊到嗑CP,以及嗑CP对二人感情关系的影响。
1:12:44 二人面对网络言论态度的相同与差异。
1:16:29 符合刻板印象中理想伴侣的两个人,她们平时会吵架么?——进入情感问答时间
1:22:11 主持人试图挑动二人吵架失败
1:26:25 一作对二作上网冲浪嗑CP的理解,以及由此产生的网络观察
1:33:43 感谢二位来到我们的节目,再会。