GPT-4的奥秘:一切数据标记化
■ 如何应对GPT-4带来的挑战
(资料图片)
智道
栏目主持人:於兴中
■ 主持人说
还没等到人们从聊天机器人ChatGPT引起的兴奋里清醒过来,人工智能公司OpenAI在3月14日又发布了GPT-4。该公司表示,这是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是一个大型的多模态模型(接受图像和文本输入,输出文本)。GPT-4虽然在许多现实世界的场景中能力不如人类,但它具有在各种专业和学术基准上表现出人类水平的性能。
GPT-4包含了很大的突破,它能创造类似人类创作的文本,并从几乎任何提示中生成图像和计算机代码,这种能力实在让人们感到震惊。研究人员说,这些能力有可能改变科学。然而,人们基本上还不知道,且无法获得该技术、其基础代码或关于如何训练它的信息。这使它对研究的作用大大降低。与此同时,其他公司也发布了各自的类似产品,比如Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言,等等。
作为对GPT-4的语言能力的证明,OpenAI公司说,GPT-4通过了美国某些州的律师资格考试,而且成绩不错。相比ChatGPT,它已经有大幅度的提升。GPT-4到底能够达到什么样的水平,能够作出什么事来,对此人们的看法可能不太一样。它仅仅是一个大型多模态的语言模型,只能限于语言上的解决,还是它作为生成性人工智能的工具是一种有可能改变世界的革命性突破?
对于新技术的出现,我们应该采取一种科技现实主义的态度,认真理解我们面对的到底是一种什么样的事物,以及它给我们带来了什么样的挑战。从法律角度深入讨论如何应对GPT-4带来的挑战,包括其对现有法律制度和法律职业的冲击、是否会创造出新的法律关系、如何监管、如何在合法应用它的背景下保护知识产权和创新、如何将其用于法律研究以及它对法学教育有何影响等,是必要的明智之举。智道栏目本期发表的5篇文章分别从不同的角度对这些重要的法律与科技的问题进行了探讨。此举不是为GPT-4张目,而在于理解它的可能影响。
如何应对GPT-4带来的挑战①
GPT-4的奥秘:一切数据标记化
3月15日,OpenAI发布GPT-4,全球瞩目。除了性能提升之外,GPT-4还增添了一项新功能,识别图像。这个新功能表示GPT-4已经实现图像和文字同时处理的多模态能力,有专家预测,未来会出现文字、图像、音频和视频等所有数据统一处理的新变革。长期以来,计算机难以处理图像、音频、视频等非结构化的数据,如何挖掘这些海量数据背后的价值成为企业关注的方向,GPT-4无疑在这条探索之路上已经迈出重要的一步。
不光是性能提升和图像识别,GPT-4的整个训练和运行其实都有一项技术作为支持,这个技术就是数据标记(Token)化。
数据标记化最早是用来保护敏感信息免受未经授权的访问、盗窃或误用,从而增强数据的安全性和隐私的技术。它通过用非敏感标记替换敏感数据来实现这一点,因为非敏感标记可以保持原始数据的格式和结构,却不会透露其内容。然而,在训练基于GPT-4体系结构的语言模型时,标记化并不涉及保护敏感信息,而是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。为什么要将训练文本分解为Token呢?
ChatGPT由一个特殊的神经网络架构训练而成,该架构被称为“Transformer”,“Transformer”网络的特点是,它可以从输入的文本中学习语言的规律和模式,并用这些规律和模式来预测文本序列中的下一个单词。具体而言,ChatGPT根据先前单词的上下文预测语句序列中的下一个单词,比如,对前n个单词接入后预测第n+1个单词,之后把n+1个单词也接入,再预测第n+2个单词,最后整个语句得以形成,有人将这种语句形成的方式叫“单字接龙”。这个被预测的单词或者字符就是Token,也叫标记参数。
在训练ChatGPT的过程中,其基本的素材就是Token。Token的原理如下:用户的问题输入,无论是文字还是图像,首先会被转化为一个向量,然后以Token的形式输入到ChatGPT的神经网络中。该网络对输入进行一系列的计算和转换后,生成Token,并形成相应的输出向量,输出向量被转化成文本,用以回答用户的提问。所以,Token就是用户输入和GPT接收之间的一种介质。
Token实质上是一种矩阵,而文本是维空间中的一个向量。Token和向量之间需要转换,以便于Transfomer识别。这个转换是由驱动GPT的自注意力机制实现的。
在像GPT这样的模型中,标记化定义了模型生成文本的粒度。标记化按照模型训练所需将文本分解为不同大小的Token,如单词、子词或字母。
其一,单词标记化。在这种方法中,文本数据被分解成单独的单词(Token)。例如,“ChatGPT是一个人工智能模型”这句话将被标记化为“ChatGPT”“is”“an”“AI”“Model”。单词级标记化很简单,但可能会导致较大的词汇量,并可能难以处理罕见或词汇表外的单词。
其二,子词标记化。为了解决单词级标记化的局限,模型可以将罕见或词汇表外的词拆分成更小、更频繁的子词(Token),这些子词可以组合成单词。这提高了该模型即使在面对陌生单词时也能产生有意义的反应的能力。例如,“ChatGPT是一个人工智能模型”这句话可以标记为“chat”“G”“pt”“is”“an”“AI”“mod”“el”。子词级标记化有助于处理生词和减少词汇量。
其三,字母标记化。在这种方法中,文本数据被分解成单个字符或字母(Token)。例如,子“ChatGPT是一个人工智能模型”将被标记为“C”“h”“a”“t”“G”“P”“T”“i”“s”“a”“n”“A”“I”“m”“o”“d”“e”“l”。
虽然这种方法可以处理任何输入文本,但它可能需要更多的计算资源,并且在捕获高级语言模式方面效率较低。在ChatGPT生成语句的过程中,如果标记化是基于单词的,则模型将预测下一个单词;如果是基于字母的,则模型将预测下一个字母。
将文本分解成标记的优势在于:较小的标记使模型能够专注于单个语言元素及其它们之间的关系,从而促进更好地理解和学习。像“hi”或“the”这样的常见单词最终会成为一个标记。但如果有一个更不常见的词如“Incomplete(意为不完整)”,就需要把它分解成“In(不)”和“complete(完整)”两个字词,这样的操作会让语言模型更容易、更有效地进行理解。当然,如果要将“In”和“complete”再细分,又会让整个操作变得非常低效。
通过使用较小的标记,模型可以学习单词之间的关系,而不必一次性处理和学习整个句子或段落,从而减少了计算成本。将文本分解为更小标记使模型可以学习语言的结构和模式,如语法、句法和语义,而通过检查标记序列,模型可以理解单词和短语如何在各种上下文中构造和使用。
因为数据标记化支持GPT的语言模型,它将输入文本转换为模型可以处理的格式,从而使得模型能更有效地理解和处理数据文本。具体而言,数据标记化可以统一处理不同类型的数据,如文字、图像、音频和视频等,方法是将各种不同的数据类型转换为统一格式,该格式可以输入到模型中进行训练和处理。这种转换使得模型能够更好地理解和处理输入的数据,同时处理文字、图像、音频和视频。
了解ChatGPT模型训练如何对文字进行标记后,它又是如何对图像、音频和视频进行标记的呢?图像数据可以被分割成较小的、固定大小的块,然后将这些块线性嵌入到一个平面向量中,并作为Token处理。至于音频数据,则可以通过对其进行转换并标记化,然后将其划分为更小的段或帧。这些段或帧可以被视为Token并由模型进行处理。视频数据可以通过将其划分为更小的片段来标记化,通常基于帧或短剪辑。然后可以处理每个片段并将其表示为Token,从而使模型能够了解不同片段之间的关系。
总之,在ChatGPT的训练和语句生成过程中,数据标记化发挥了关键作用。它一方面可以简化表示、促进高效计算、支持更好的语言结构和上下文学习,并更有效地处理词汇表外的单词,另一方面可以将文字、图像、音频和视频统一转换为模型可以识别的格式,极大提高了ChatGPT模型的语言理解能力和回应功能,从这个角度而言,ChatGPT的奥秘就是“将一切数据Token化”。
(作者系西北工业大学马克思主义学院教授)
标签:
推荐文章
- 贵州茅台夺回“市值一哥”席位 谁能坐稳中国上市公司的宝座?
- 大千生态接盘方曝光 高管之子近期买卖过上市公司
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走近网瘾少年们:他们沉迷网络的病根何在?
- “双减”后首个长假:亲子游、研学游需求集中释放
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- “双减”出台两个月,组合拳如何直击减负难点?
- 《山海情》里“凌教授”的巨菌草丰收啦
- 且看新疆展新颜
- 天山脚下,触摸丝路发展新脉动
- 160万骑手疑似“被个体户”?平台不能当甩手掌柜
- 网游新政下,未成年人防沉迷的“主战场”在哪?
- “辱华车贴”商家及客服被行拘,处罚要不放过每一环
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 国庆主题花坛持续展摆至重阳节
- 都市小资还是潮流乐享?花草茶市场呈爆发性增长
- 从1.3万元降到700元,起诉书揭秘心脏支架“玄机”
- 北京国庆7天接待游客超861万人次 冬奥线路受青睐
- 陈毅元帅长子忆父亲叮嘱:你们自己学习要好,就可以做很多事儿
- 报告显示:这个国庆假期,粤川浙桂赣旅游热度最高
- 中国科技人才大数据:广东总量第一,“北上”这类人才多
- 嘉陵江出现有记录以来最强秋汛
- 全国模范法官周淑琴:为乡村群众点燃法治明灯
- 线上教学模式被盯上,网络付费刷课形成灰色产业链
- 云南保山:170公里边境线,4000余人日夜值守
- 警方查处故宫周边各类违法人员12人
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 受南海热带低压影响 海南海口三港预计停运将持续到10日白天
- 多地网友投诉遭遇旅游消费骗局,呼吁有关部门严查乱象
- 神经科学“罗塞塔石碑”来了:迄今为止最完整的大脑细胞图谱
- 汾河新绛段发生决口
- 陕西支援14省份采暖季保供用煤3900万吨
- 这场红色故事“云比拼”,穿越时空为我们指引方向
- 受琼州海峡封航影响 10月7日、8日进出海南岛旅客列车停运
- 辽宁省工信厅发布10月8日电力缺口橙色预警
- 广州10月8日至20日对所有从省外来(返)穗人员实施核酸检测
- 假期怎么过得这么快?国庆5.15亿人次出游,你咋过的?
- 国庆假期全国道路交通总体安全平稳有序
- 哈尔滨市南岗区爱达88小区将调整为低风险地区
- 新疆霍尔果斯市2例无症状感染者新冠病毒均为德尔塔变异株
- 百闻不如一见——北京大学留学生参访新疆
- 看,生机勃勃的中国
- 国庆假期中国预计发送旅客4.03亿人次
- 新疆兵团可克达拉市:195名密接者已全部隔离医学观察
- 山西平遥消防4天29次救援:拖着腿走路也要完成任务
- 国庆假期北京接待游客861.1万人次
- 冷空气自西向东影响中国大部地区 气温将下降4℃至6℃
- 新疆哈密市巴里坤县发生4.3级地震 震源深度9千米
- 国庆假期中国国内旅游出游5.15亿人次
- 公安部交管局:国庆假期日均出动警力18万余人次,5位交警辅警牺牲
- 受南海热带低压影响广东将暂别高温天气
- “数说”杭州无障碍改造:触摸城市“爱的厚度”
- 新疆霍尔果斯无症状感染者新冠病毒属德尔塔变异株 未发现高度同源的基因组序列
- 新疆伊犁州:妥善做好滞留旅客安置返回工作
- 国庆假期广西累计接待游客逾3611万人次 实现旅游消费272.41亿元
- 2021年MAGIC3上海市青少年三对三超级篮球赛落幕
- 新疆兵团第四师可克达拉市1名无症状感染者为餐饮从业人员
- 哥伦比亚遇上广州:洋茶人“云上”喫茶 传播中国茶“味道”
- 厦门同安区四区域调整为低风险 全市无中高风险地区
- 直径2米“面气球”亮相 山西首届“寿阳味道”美食大赛启幕
- 世界第一埋深高速公路隧道大峡谷隧道出口端斜井掘进完成
- 浙南沿海村村发展有妙招 搭乘共富快车打造“海上花园”
- 新疆霍尔果斯两例无症状感染者新冠病毒均属德尔塔变异株
- 南沙港铁路国庆假期不停工 力争今年年底开通
- 添加陌生人为好友 内蒙古两女子被骗126万
- 中国国庆假期出行热:数字改变“关键小事”
- 水能载物亦能“生金” 浙江遂昌山村以水为媒奔共富
- 铁路人国庆雨中巡查排险记:一身雨衣、一把铁锹保安全畅通
- 铁路迎返程高峰 西安局集团公司加开79趟高铁列车
- 受热带低压影响 琼州海峡北岸等待过海车辆排长龙
- 哈尔滨市学校有序恢复线下教学
- 哈尔滨一地风险等级调整为低风险
- 从进“培训班”到看《长津湖》
- 安徽黄山国庆假期迎客12万余人 旅游市场稳步复苏
- 山西解除持续近90小时的暴雨四级应急响应
- 科学拦峰错峰削峰 嘉陵江洪水过境重庆中心城区“有惊无险”
- 粤高速大湾区路段假期车流集中 跨珠江口通道尤甚
- 千年街区“非遗”风催热国庆假期本地游
- “颜值担当”里的中国,映照“万物和谐”新气象
- 杭州“十一”假期后初中取消统一早读
- 济南趵突泉地下水位创1966年以来最高纪录
- 厦门中高风险地区清零 撤除离厦通道查验点
- 陕西境内21条河流出现洪峰 渭河3号洪水复涨
- 国庆假期北京市公园风景区共纳客687万人次
- 平遥古城城墙局部坍塌,修缮程序已对接启动
- 300年古村落迭代破圈 化身旅游打卡新地标
X 关闭
资讯
X 关闭
行业动态
-
葱烧海参糖醋鱼即将上市 年末北京盒马年菜预定量涨2倍-今日热闻
- 葱烧海参糖醋鱼即将上市 年末北京盒马年菜预定量涨2倍-今日热闻
- 12月29日应急产业板块十大牛股一览|天天即时看
- frm持证人未来前景怎么样
- 新华全媒+|空间站圆梦、C919交付……2022科技创新结出累累硕果
- 天天滚动:大地熊(688077.SH):多名股东及董监高拟减持合计不超2.21%股份
- 硅鑫集团(08349.HK)订立租赁协议 今日最新
- 龙竹科技(831445)12月29日游资资金净卖出9.62万元
- 今日快看!经济仲裁的法律效力
- 唐源电气:子公司部分银行资金冻结系因对方申请财产保全措施,与诉讼是何结果无关
- 百事通!全球无人系统大会进行实景演练 专家学者建言应对“黑飞”“乱飞”