社交媒体数据抓取亟待合规合法全球十二家数据保护机构发声

2023-09-15

以生成式人工智能为代表的人工智能飞速发展，离不开海量数据的大力出奇迹。在百万甚至更多数据作用之下，人工智能可以侃侃而谈、无所不知。生成式AI的数据来源于哪里？多为厂商积累，公开爬取或来源于各类免费或者付费第三方数据库与数据集，而其中因公开爬取的数据引发纠纷不断，如OpenAI遭遇的联合诉讼。
　　近日，全球十二家数据保护机构发布关于数据抓取和隐私保护的联合声明，针对社交媒体平台和其他可公开访问网站上的数据抓取问题作出回应。如联合声明指出，可公开访问的个人信息在大多数司法辖区仍受到数据保护和隐私法的约束。根据数据保护和隐私法相关规定，可公开访问个人数据的社交媒体和网站运营商有义务保护平台上的个人信息不被非法抓取。
　　公开信息仍需被保护
　　联合声明由全球十二家数据保护机构作出，如澳大利亚信息专员办公室（OAIC）、加拿大隐私专员办公室(OPC)、英国监管机构信息专员办公室（ICO）等，是全球隐私大会召集的十二家权威机构。联合声明的发布是为了社交媒体和其他网站以及在这些网站上使用和发布个人信息的个人的利益。
　　“虽然联合声明中提到的期望应被称为建议，但其中许多是特定法域的明确法定要求，或者被法院和数据保护机构采纳的解释。”联合声明说道。同时联合声明表示，一些社交媒体已经实施了控制措施以解决对公开访问个人信息的数据抓取问题，联合声明所包含的原则和期望也对此进行了借鉴。
　　据介绍，声明还被直接发给了多个社交媒体巨头，Alphabet（YouTube）、字节跳动（TikTok）、Meta（Instagram、Facebook 和 Threads）、微软（LinkedIn）、新浪（微博）和 X（前身为 Twitter）。
　　联合声明强调，多数法域，互联网上“可公开获得”“可公开访问”或“具有公开性质”的个人信息仍受数据保护法和隐私法管辖，抓取上述信息的个人和公司有责任确保遵守相关法律。同时强调，社交媒体公司和其他持有可公开访问个人信息网站的运营者对于第三方抓取网站上的信息同样负有数据保护义务。“无论个人信息是否公开，这些义务对该类个人信息普遍适用。”
　　具体来看，联合声明主要分为三部分。
　　一是介绍了数据抓取的隐私风险。近年来，许多数据保护机构发现，从社交媒体公司和其他网站抓取大量数据的报告越来越多。被抓取的数据可能会被用于定向网络攻击，身份欺诈，监控、分析和监视个人，未经请求的直接营销或垃圾信息等。正如联合声明所说，“更广泛地说，当个人信息在不知情和违背预期的情况下被窃取时，个人就会失去对个人信息的控制。……即使个人决定从社交媒体账户中删除信息，数据抓取器也可能继续使用和共享他们已经收集到的信息……”
　　二是指出，社交媒体公司和其他网站应保护个人信息免受非法数据抓取，以满足监管需求。联合声明指出，数据安全是动态责任，提高警惕是最重要的。社交媒体公司和其他网站应实施多层次的技术和程序控制措施以降低风险，如限制账户的访问次数，识别机器人程序等。此外，确保用户以保护隐私的方式使用服务、确保相关保障措施服务法律要求、持续监控安全风险和威胁等也助于保护个人信息。
　　三是介绍了个人可以采取的措施，以最小化数据抓取带来的隐私风险。个人可以阅读包括隐私政策在内的相关文件，了解网站如何共享个人信息；考虑共享信息的数量和种类；了解和管理隐私设置。同时提示个人从长远考虑。
　　公开可用的个人信息如何保护？
　　社交媒体存在大量公开可见的信息，其中不少涉及个人的敏感信息，对于这部分公开信息，又该如何保护？
　　中国政法大学光明新闻传播学院助理教授张璐对记者表示，数据抓取行为虽然针对的是已经公开的个人信息，但是其处理的目的与公开时的目的不同，且大量抓取行为本身也不符合数据最小化的要求，因而其合法性受到质疑。此外，已经公开的个人信息中还存在大量敏感个人信息，处理这类信息需要更严格的合法性基础。
　　在她看来，主要从三个方面进行回答：一是对于已经合法公开的个人信息，原则上来说是无需告知并取得自然人的同意即可进行合理处理，有助于信息的流动和利用。
　　二是对已公开个人信息的处理应在合理的范围内，其中如何确定合理的范围是关键。“一般来说，包括处理信息的范围限度、处理目的的合理限度等，此外，合法、正当、必要等处理个人信息的基础原则，是界定合理范围的重要原则。尤其处理已公开的个人信息应当符合该信息被公开时的用途。超出该用途的合理范围的，应当依法取得个人同意。”
　　第三，即使已经合法公开的个人信息仍受到法律的保护，个人对这些信息并没有因为公开而完全丧失控制，其仍有权拒绝他人对这些信息的处理。且由于个人信息涉及人格尊严和人格自由，如果处理行为侵害自然人的重大利益的，也要承担民事责任。
　　针对公开信息的保护，一个值得参考的案例便是Clearview AI违规收集人脸信息而遭到多国监管机构指控。Clearview AI是成立于美国的人脸识别公司，在未经用户同意的情况下，从公开网络及社交媒体平台上收集了超过 200 亿张人脸图像和相关数据，并用于创建其面部识别的全球在线数据库。通过在线数据库向相关执法实体提供身份匹配服务。
　　Clearview AI的行为面临来自美国监管机构和欧洲多国监管机构的审查和诉讼，如ICO与OAIC针对Clearview AI展开联合调查；法国数据监管机构国家信息与自由委员会（CNIL）以违反《欧盟通用数据保护条例》（GDPR）为由，向美国人脸识别公司Clearview AI开出了2000万欧元的罚单。
　　张璐提示，需尤其关注数据抓取带来的信任风险。公开的个人数据被未经授权的爬取后，被用于不可预测、不同于原始收集目的时，作为用户，将对最初发布个人信息的社交媒体等平台产生不信任，影响平台与用户之间的良性互动，最终将不利于整个数字经济的发展。
　　“正如联合声明所说，个人需要了解共享信息可能面临的风险。在自媒体时代，‘分享生活’的潮流以及人工智能技术越来越普及的当下，用户需不断提升自身素养，尤其是在网络环境下发布敏感和私密的个人信息，更应提升对于自身信息以及隐私的保护意识。”

社交媒体数据抓取亟待合规合法 全球十二家数据保护机构发声

为你推荐

社交媒体数据抓取亟待合规合法全球十二家数据保护机构发声