applogo.png
简介

今年4月,美国新闻/媒体联盟发起"支持负责任AI"运动,呼吁科技巨头为AI内容使用付费。AI爬虫对维基共享资源的带宽占用激增50%,其流量模式与人类用户截然不同——爬虫会无差别抓取所有内容,导致分布式存储系统原本中"冷门"的数据频繁被调用,产生高额带宽成本。维基百科无法通过出售数据获利,只能将数据以机器友好的JSON格式公开,引导AI厂商从Kaggle获取数据。此次合作标志着维基百科从对抗AI爬虫转向主动引导数据使用模式,为内容平台应对AI挑战提供了新思路。这种转型不仅是技术层面的调整,更是数字内容生态在人工智能时代重塑关系的典型案例。

维基百科为何选择开放数据给AI厂商?

维基共享资源上存有的 1.44 亿个图像、视频或其他文件带宽增长 50%,AI 爬虫的无差别抓取使大量原本冷门的内容频繁被调用,导致带宽成本大幅上升。而基金会作为非营利性机构,收入主要来源于捐赠,难以承担高昂的带宽费用。

AI 厂商的爬虫抓取数据行为处于灰色地带,通过开放数据,可以引导 AI 厂商通过合法合规的渠道获取数据,避免潜在的版权纠纷。

 维基百科与AI爬虫:从对抗到合作的转型之路

维基百科作为全球最大的知识共享平台,一直秉持着让地球上的每个人都能自由获取所有知识的使命。开放数据可以更好地满足 AI 开发者对知识数据的需求,促进知识的传播与共享,推动人工智能技术的发展。

二维码

 维基百科与AI爬虫:从对抗到合作的转型之路

保存图片,微信扫一扫

公众号:2323

上一页 下一页
其他信息
行业: 技术
地区: 天津市
时间:2025-04-29
标签:维基百科与AI爬虫:从对抗到合作的转型之路

上一篇:ChatGPT搜索功能升级 购物体验迎来变革

下一篇:3亿资本加持!张月光的AI播客梦有多远?

赞 0
分享
猜你喜欢

账号登录,或者注册个账号?