应对 AI 冲击:知识共享组织(CC)谨慎支持“付费爬取”技术

应对 AI 冲击:知识共享组织(CC)谨慎支持“付费爬取”技术

AI新闻资讯 (AI Base)

非营利组织**知识共享组织(Creative Commons, CC)**近日公开表达了对“**付费爬取”(Pay-for-Crawl)**技术的谨慎支持,该技术是一种在机器(如人工智能网络爬虫)访问网站内容时自动支付报酬的系统。

今年早些时候,CC 宣布了“开放人工智能生态系统”的框架,旨在为控制数据的公司和利用数据进行训练的 AI 提供商之间,提供共享数据集的法律和技术支持。CC 最为人所知的是其在许可协议方面的贡献,该协议允许创作者在保留版权的同时分享作品。

 “付费爬取”的必要性

Cloudflare 等公司为代表的“付费爬取”理念,要求 AI 机器人每次抓取网站内容进行模型训练和更新时,都向网站付费。

CC 在其博客文章中指出:“如果负责任地实施,付费抓取可以成为网站维持其内容创作和分享的一种方式……使内容能够公开访问,否则这些内容可能无法分享,或者会消失在更加严格的付费墙之后。”

这一转变的背景是 AI 对传统出版商的“毁灭性打击”。过去,网站允许谷歌等搜索引擎爬取内容以换取搜索流量和点击量。然而,随着 AI 聊天机器人的普及,消费者直接从 AI 获得答案,导致网站搜索流量锐减,严重影响了出版商的利润。

“付费爬取”系统为小型网络出版商提供了一种从 AI 冲击中恢复过来的方式,尤其对于那些没有足够实力与 OpenAI、谷歌、Meta 等巨头谈判一次性内容合作协议的出版商而言,其操作性更强。目前,OpenAI 已与康泰纳仕集团、阿克塞尔·施普林格集团,以及 Perplexity 与甘尼特集团等达成了多项重要合作。

 CC 的保留意见与负责任原则

尽管表示支持,CC 也提出了一些保留意见,指出此类系统可能导致网络权力过于集中,并可能阻碍“研究人员、非营利组织、文化遗产机构、教育工作者和其他为公共利益服务的机构”访问内容。

因此,CC 提出了一系列负责任的“付费爬取”原则,包括:

  • 不应将付费爬虫设置为所有网站的默认设置
  • 应避免对整个网络制定一刀切的规则
  • 系统应允许限速而非仅仅屏蔽,并保障公众的访问权限
  • 系统应具备开放性、互操作性,并采用标准化组件构建。

行业标准与参与者

除 Cloudflare 外,微软也在为出版商构建 AI 市场,而 ProRata.aiTollBit 等小型初创公司也开始涉足这一领域。

另一个组织 RSL Collective 发布了名为“真正简单的许可(Really Simple Licensing, RSL)”的新标准,规定了网站爬虫可访问的部分。CC 宣布支持 RSL,并将其纳入其更广泛的 AI 时代技术和工具开发项目。目前,RSL 已获得 Cloudflare、Akamai、Fastly 等公司的采用,并得到雅虎、Ziff Davis、O'Reilly Media 等公司的支持。

Generated by RSStT. The copyright belongs to the original author.

Source

Report Page