Reddit可能会阻止人工智能初创公司从该平台抓取数据
据报道,Reddit已决定阻止人工智能初创公司从其网站上抓取数据。此举可防止第三方公司未经许可使用Reddit的数据来训练其机器学习模型。
人工智能初创公司主要依靠网络上的内容来训练聊天机器人。这使他们能够为聊天机器人提供信息并扩展知识库,而无需花费任何金钱来制作独家内容。然而,《华盛顿邮报》报道称,超过535个新闻机构对此表示抗议,并希望人工智能初创公司为这些内容付费。包括Reddit在内的这些组织已决定阻止爬虫抓取其内容。
Reddit的决定也可能会影响Google和Bing爬虫。《华盛顿邮报》指出,如果Reddit未能与人工智能公司达成协议,它可能会放弃谷歌和必应搜索爬虫。这意味着Google和Bing(或OpenAI)搜索结果中不会显示来自Reddit的任何内容。
《华盛顿邮报》的报道还补充说,Reddit希望放弃谷歌账户,让用户登录该网站阅读内容。不过,该平台随后否认了这部分内容。搜索爬虫似乎是与谷歌唯一存在争议的问题。一位匿名消息人士告诉《华盛顿邮报》,“Reddit可以在没有搜索的情况下生存。”
所有证据都表明,如果Reddit未能让这家科技巨头为内容付费,那么Reddit正在大力推行屏蔽谷歌搜索爬虫的想法。该公司发言人蒂姆·拉斯施密特(TimRathschmidt)告诉TheVerge,“就爬虫而言,我们目前没有任何可以分享的内容。”
新闻机构决心阻止科技公司免费使用内容。他们首先抗议Google和Meta,并要求公平分享。尽管科技巨头威胁要屏蔽加拿大等特定市场的新闻,但新闻机构仍然希望通过其内容获得补偿。由于该州的AB886法案,加州新闻媒体可能很快就会收取内容费用。
X(Twitter)所有者埃隆·马斯克(ElonMusk)已经批评人工智能初创公司抓取数据。后来他向开发者收取访问平台API的费用,并实施了读取限制以防止数据抓取。