拒绝“白嫖”!Stack Overflow 将矛头直指 ChatGPT 等产品:用了我的数据训练,得先给钱!_世界今头条
打不过就加入!
继去年12月 Stack Overflow称 ChatGPT 生成的答案正确率非常低并决定宣布临时封禁 ChatGPT之后,其开始以另一种身份加入这场 AI 竞赛中。
据外媒Wired 报道,开发运行 ChajstGPT 和 DeLL-E 等“病毒式” AI 工具系统可能会使得背后的公司如 OpenAI 花费数十亿美元,而 StackOverflow 正计划让这笔费用变得更高一些,其希望对使用自己平台数据进行训练的 AI 公司收费。
(资料图片仅供参考)
值得注意的是,现如今和 Stack Overflow 有着类似想法的公司也不在少数, 社交媒体 Twitter、新闻社区 Reddit 等也正有此意,在各方「画地为牢」之际,谁将为大模型的训练买单也成为行业内关注的焦点。
大模型背后的大数据从何而来?
众所周知,ChatGPT、GPT-4、Google Bard、Bing Chat、LLaMA 等 AI 模型都需要基于大量数据集进行训练。
然而,数据从何而来,这些模型背后的开python发商 OpenAI、Google、Meta 虽然从未正面解释过这一问题,但是据《华盛顿邮报》的一项调查显示,其中大部分是从互联网上抓取的。
为了验证这一点,《华盛顿邮报》分析了 Google 的 C4数据集,其中包含了1500万个网站内容的快照,它也被用来训练 Google T5、Facebook 的 LLaMA 模型。
通过与艾伦人工智能研究所的研究人员合作,最终他们发现此数据集主要来自新闻、娱乐、软件开发、医药和内容创作等多个行业的网站,覆盖收集来自世界各地发布的专利文本的 patents.google.com、维基百科、仅供订阅的数字图书馆(scribd.com)、Medium,以及 Stack Overflow、Reddit 等平台也在其中。
来自这些网站的数据显然对 AI 模型公司而言非常具有价值,他们可以通过互联网成千上万的信息源,根据参数训练他们的大型语言模型(LLM),从而成功进行自然语言处理(NLP)。
Stack Overflow 反向抵制 AI模型
Stack Overflow 作为全球知名的编码论坛,为开发者提供协作与交流的环境,也是程序员讨论编码问题的主要聚集地。当前,市面上很多的 AIGC 都支持辅助编码、能够在理解用户提出的编码问题基础上提供生成式代码、甚至也可以捕捉 Bug 以及 Debug,而大模型之所以拥有这些能力,也有大量相关编码问题与数据集的支撑。
不过,随着 ChatGPT 等产品的到来,对老牌 Stack Overflow 这样的平台带来了巨大的冲击。在今年早些时候,也有媒体报道,Stack Overflow 惨遭程序员抛弃,其网站访问量与搜索量急剧下降。
根据营销平台 Semrush 的流量监测工具显示,近一年来,Stack Overflow 的访问量持续下滑。
另一方面,以 Stack Overflow、ChatGPT、github 为关键词,据 GoogleTrends 显示,Stack Overflow 的搜索量垫底。
与之形成鲜明对比的是,很多大模型产品已经走向了商业化,如微软对其代码生成器 GitHub Copilot 的收费高达19美元/人/月、OpenAI 推出了每月20美元的 ChatGPT Plus 服务。
在这种趋势之下,Stack Overflow 想要绝地反击,便也不足为奇。据 Wired 报道,StackOverflow CEOPrashanth Chandrasekar 表示,“Stack Overflow 计划最快在今年年中开始向开发大模型的开发者、公司收费,付费的群体才可以获得其服务中的5000万个问题和答案。”
为此,Prashanth Chandrasekar 也在 Stack Overflow 的官方博客上特地发表了一篇主题为《社区是人工智能的未来》的长文,分享道:
如今,建立在尖端大语言模型 (LLM) 之上的复杂聊天机器人只需一张在餐巾纸上画的草图照片即可为网站编写功能代码。他们可以回答有关如何构建应用程序的复杂查询,帮助用户调试错误,并在几分钟内在不同语言和框架之间进行翻译。
在 Stack Overflow,我们不得不坐下来问自己一些尖锐的问题。当用户可以像其他人一样轻松地向聊天机器人寻求帮助时,我们在软件社区中扮演什么角色?我们的业务如何适应,以便我们继续授权技术人员学习、分享和成长?
在Prashanth Chandrasekar看来,「人工智能系统的核心是建立在丰富的人类知识和经验之上。他们通过数据训练来学习——例如开源代码和 Stack Overflow 问答。」
基于此,SphptackOverflow 想要推出 Stack Overflow for Teams 服务,决定向使用其数据的公司寻求赔偿,这属于维持社区蓬勃发展战略的一部分,无可厚非。
Reddit、Twitter 同样想要对数据收费!
无独有偶,想要强硬地拒绝 AI 模型开发商“白嫖”的平台也不止 Stack Overflow 一家。
就在几天前,美国知名论坛社交平台 Reddit 宣布,它将从6月开始向一些人工智能开发者收取访问其自身内容的费用。Reddit 表示,API 访问收费的细节仍在敲定,价格预计在未来几周内公布。
除此之外,马斯克掌管下的 Twitter 也欲对大模型公司发起反击。在3月26日,Twitter 推出了自家最新的 API 价格结构,包含免费版、基础版以及企业版。
免费版:只有使用 Twitter 登录的访问权限,以及每月仅提供1,500个发帖请求。
基础版:每月100美元,可以获得50,000个发帖请求和10,000个阅读请求。
企业版:并没有列出具体的价格。但是承诺提供“满足您和您客户特定需求的商业级访问”以及“[来自]专门客户团队的托管服务。” 不过,据外媒 Platformer 此前报道,企业版每月的费用可能高达42,000美元。
这意味着如果企业想要接入 Twitter API,用上面的数据来训练,需要付出一笔不菲的费用。
与此同时,马斯克还打算追究旧账,其认为 OpenAI 以及微软在 AI 模型方面的成功,离不开 Twitter 数据的贡献。为此,在上周微软宣布旗下 Smart Campaigns 广告服务不再支持 Twitter 之际,马斯克便留下威胁之语,称「他们使用 Twitter 数据进行非法训练。(现在是)诉讼时间。」
StackOverflow:不是针对全员,只是针对大公司
在Stack Overflow CEOPrashanthChandrasekar 看来,"为 LLMs推波助澜的社区平台绝android对应该为他们的贡献得到补偿,这样像我们这样的公司就可以重新投资回我们的社区,继续使它们蓬勃发展"。
Chandrasekar 认为,潜在的额外收入对确保 Stack Overflow 能够不断吸引用户和维持高质量的信息至关重要。他认为这也将有助于未来的聊天机器人迭代,毕竟大模型想要与时俱进,必须要"在一些最前沿的知识上训练。而 Stack Overflow 需要不断创造新的知识"。
但是,将有价值的数据圈起来也可能阻止一些人工智能的训练,并减缓 LLMs 的改进。Chandrasekar 表示,开放适当的许可只会有助于加速高质量 LLM 的发展。
不过,据 Wired 透露,此次 Stack Overflow 和 Reddit 并非是想向所有 AI 模型公司“发难”,其还是会将继续向一些人和公司免费授权数据。
Chandrasekar 表示,“Stack Overflow 只希望从本着商业目的而开发 LLM 的公司那里得到报酬。当人们开始对建立在我们这样社区之上的产品收费时,这就是不公平使用的地方。"
另外,据《纽约时报》报道,Reddit 首席执行官 Steve Huffman 称,他不想给世界上最大的公司提供免费服务。他表示,「抓取 Reddit,产生价值,却不把这些价值返还给我们的用户,这是我们有意见的地方。」
AIGC、大模型的下一步:该如何规范使用?
为此,不少业界人士认为,Stack Overflow、Reddit对其聊天数据进行收费是似乎已经成为行业一种发展趋势,这也必然会对上游 AI 大模型厂商带来一定的影响。
毕竟每个 AI 模型开发商无不在寻求降低开发大模型的巨大成本,然而,如今他们不仅需要为巨大的算力付出代价,也还要为无法计算的数据量来买单。截编程至目前,OpenAI、Meta、Google 等公司均未予置评。
不过,继续想想,如果 Stack Overflow、Reddit 等平台索取费用成功,对于在其平台上免费撰写问题和答案的普通用户而言,似乎也有理由要分一杯羹了。
这一场围绕大模型、AIGC 训练引发的规范、付费问题的讨论也将愈演愈烈。
参考:
https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/
https://www.zdnet.com/article/stack-overflow-joins-reddit-and-twitter-in-charging-ai-companies-for-training-data/
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
标签:
推荐文章
- 贵州茅台夺回“市值一哥”席位 谁能坐稳中国上市公司的宝座?
- 大千生态接盘方曝光 高管之子近期买卖过上市公司
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走近网瘾少年们:他们沉迷网络的病根何在?
- “双减”后首个长假:亲子游、研学游需求集中释放
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- “双减”出台两个月,组合拳如何直击减负难点?
- 《山海情》里“凌教授”的巨菌草丰收啦
- 且看新疆展新颜
- 天山脚下,触摸丝路发展新脉动
- 160万骑手疑似“被个体户”?平台不能当甩手掌柜
- 网游新政下,未成年人防沉迷的“主战场”在哪?
- “辱华车贴”商家及客服被行拘,处罚要不放过每一环
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 国庆主题花坛持续展摆至重阳节
- 都市小资还是潮流乐享?花草茶市场呈爆发性增长
- 从1.3万元降到700元,起诉书揭秘心脏支架“玄机”
- 北京国庆7天接待游客超861万人次 冬奥线路受青睐
- 陈毅元帅长子忆父亲叮嘱:你们自己学习要好,就可以做很多事儿
- 报告显示:这个国庆假期,粤川浙桂赣旅游热度最高
- 中国科技人才大数据:广东总量第一,“北上”这类人才多
- 嘉陵江出现有记录以来最强秋汛
- 全国模范法官周淑琴:为乡村群众点燃法治明灯
- 线上教学模式被盯上,网络付费刷课形成灰色产业链
- 云南保山:170公里边境线,4000余人日夜值守
- 警方查处故宫周边各类违法人员12人
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 受南海热带低压影响 海南海口三港预计停运将持续到10日白天
- 多地网友投诉遭遇旅游消费骗局,呼吁有关部门严查乱象
- 神经科学“罗塞塔石碑”来了:迄今为止最完整的大脑细胞图谱
- 汾河新绛段发生决口
- 陕西支援14省份采暖季保供用煤3900万吨
- 这场红色故事“云比拼”,穿越时空为我们指引方向
- 受琼州海峡封航影响 10月7日、8日进出海南岛旅客列车停运
- 辽宁省工信厅发布10月8日电力缺口橙色预警
- 广州10月8日至20日对所有从省外来(返)穗人员实施核酸检测
- 假期怎么过得这么快?国庆5.15亿人次出游,你咋过的?
- 国庆假期全国道路交通总体安全平稳有序
- 哈尔滨市南岗区爱达88小区将调整为低风险地区
- 新疆霍尔果斯市2例无症状感染者新冠病毒均为德尔塔变异株
- 百闻不如一见——北京大学留学生参访新疆
- 看,生机勃勃的中国
- 国庆假期中国预计发送旅客4.03亿人次
- 新疆兵团可克达拉市:195名密接者已全部隔离医学观察
- 山西平遥消防4天29次救援:拖着腿走路也要完成任务
- 国庆假期北京接待游客861.1万人次
- 冷空气自西向东影响中国大部地区 气温将下降4℃至6℃
- 新疆哈密市巴里坤县发生4.3级地震 震源深度9千米
- 国庆假期中国国内旅游出游5.15亿人次
- 公安部交管局:国庆假期日均出动警力18万余人次,5位交警辅警牺牲
- 受南海热带低压影响广东将暂别高温天气
- “数说”杭州无障碍改造:触摸城市“爱的厚度”
- 新疆霍尔果斯无症状感染者新冠病毒属德尔塔变异株 未发现高度同源的基因组序列
- 新疆伊犁州:妥善做好滞留旅客安置返回工作
- 国庆假期广西累计接待游客逾3611万人次 实现旅游消费272.41亿元
- 2021年MAGIC3上海市青少年三对三超级篮球赛落幕
- 新疆兵团第四师可克达拉市1名无症状感染者为餐饮从业人员
- 哥伦比亚遇上广州:洋茶人“云上”喫茶 传播中国茶“味道”
- 厦门同安区四区域调整为低风险 全市无中高风险地区
- 直径2米“面气球”亮相 山西首届“寿阳味道”美食大赛启幕
- 世界第一埋深高速公路隧道大峡谷隧道出口端斜井掘进完成
- 浙南沿海村村发展有妙招 搭乘共富快车打造“海上花园”
- 新疆霍尔果斯两例无症状感染者新冠病毒均属德尔塔变异株
- 南沙港铁路国庆假期不停工 力争今年年底开通
- 添加陌生人为好友 内蒙古两女子被骗126万
- 中国国庆假期出行热:数字改变“关键小事”
- 水能载物亦能“生金” 浙江遂昌山村以水为媒奔共富
- 铁路人国庆雨中巡查排险记:一身雨衣、一把铁锹保安全畅通
- 铁路迎返程高峰 西安局集团公司加开79趟高铁列车
- 受热带低压影响 琼州海峡北岸等待过海车辆排长龙
- 哈尔滨市学校有序恢复线下教学
- 哈尔滨一地风险等级调整为低风险
- 从进“培训班”到看《长津湖》
- 安徽黄山国庆假期迎客12万余人 旅游市场稳步复苏
- 山西解除持续近90小时的暴雨四级应急响应
- 科学拦峰错峰削峰 嘉陵江洪水过境重庆中心城区“有惊无险”
- 粤高速大湾区路段假期车流集中 跨珠江口通道尤甚
- 千年街区“非遗”风催热国庆假期本地游
- “颜值担当”里的中国,映照“万物和谐”新气象
- 杭州“十一”假期后初中取消统一早读
- 济南趵突泉地下水位创1966年以来最高纪录
- 厦门中高风险地区清零 撤除离厦通道查验点
- 陕西境内21条河流出现洪峰 渭河3号洪水复涨
- 国庆假期北京市公园风景区共纳客687万人次
- 平遥古城城墙局部坍塌,修缮程序已对接启动
- 300年古村落迭代破圈 化身旅游打卡新地标
X 关闭
资讯
- 拒绝“白嫖”!Stack Overflow 将矛头直指 ChatGPT 等产品:用了我的数据训练,得先给钱!_世界今头条
- 上海市金山区金山卫镇水务站一干部接受纪律审查和监察调查-热门
- 世界最新:自动大灯是什么时候用_自动大灯是什么意思
- 动态:共沐书香 阅读阅美!大宁路街道举办“第28个世界读书日”主题活动
- 中国移动云业务力争突破年营收1500亿元|环球视点
- 快资讯:小店加盟费多少钱(小店加盟什么好)
- 写作需要“图钉”,作家热议新时代文学 世界消息
- 环球新动态:龙王学校:教学比拼展风采,劳动育人向未来
- 中国绘制火星全球影像图发布
- 热头条丨“五一”住宿遭退单,消费者质疑先退后涨,业内:不要自己取消订单
- 全球今头条!绿军记者:德章泰-穆雷恐将被禁赛 11年前隆多曾因相似行为被禁赛
- 京媒:张玉宁称自己身体状况还不错,战海牛能否出场听教练安排
X 关闭
行业动态
-
葱烧海参糖醋鱼即将上市 年末北京盒马年菜预定量涨2倍-今日热闻
- 葱烧海参糖醋鱼即将上市 年末北京盒马年菜预定量涨2倍-今日热闻
- 12月29日应急产业板块十大牛股一览|天天即时看
- frm持证人未来前景怎么样
- 新华全媒+|空间站圆梦、C919交付……2022科技创新结出累累硕果
- 天天滚动:大地熊(688077.SH):多名股东及董监高拟减持合计不超2.21%股份
- 硅鑫集团(08349.HK)订立租赁协议 今日最新
- 龙竹科技(831445)12月29日游资资金净卖出9.62万元
- 今日快看!经济仲裁的法律效力
- 唐源电气:子公司部分银行资金冻结系因对方申请财产保全措施,与诉讼是何结果无关
- 百事通!全球无人系统大会进行实景演练 专家学者建言应对“黑飞”“乱飞”