首页

商业资讯

科技技术

明星企业

展会动态

业内新闻

行业信息

热点专题

纤维原料

纤维品牌

产品分类

国内

快讯

微软提出AIGC新“玩法”，图灵奖得主Yoshua Bengio也来了！

来源：CSDN 2023-04-05 06:08:57

(资料图片仅供参考)

在AIGC取得举世瞩目成就的背后，基于大模型、多模态的研究范式也在不断地推陈出新。微软研究院作为这一研究领域的佼佼者，与图灵奖得主、深度学习三巨头之一的Yoshua Bengio一起提出了AIGC新范式——Regeneration Learning。这一新范式究竟会带来哪些创新变革？本文作者将带来他的深度解读。

作者 | 谭旭

AIGC（AI-Generated Content）在近年来受到了广泛关注，基于深度学习的内容生成在图像、视频、语音、音乐、文本等生成领域取得了非常瞩目的成就。不同于传统的数据理解任务通常采用表征学习（Representation Learning）范式来学习数据的抽象表征，数据生成任务需要刻画数据的整体分布而不是抽象表征，需要一个新的学习范式来指导处理数据生成的建模问题。

为此，微软研究院的研究员和深度学习/表征学习先驱Yoshua Bengio一起，通过梳理典型的数据生成任务以及建模流程，抽象出面向数据生成任务的学习范式Regeneration Learning。该学习范式适合多种数据生成任务（图像/视频/语音/音乐/文本生成等），能够为开发设计数据生成的模型方法提供新的洞见和指导。

论文：Regeneration Learning: A Learning Paradigm for Data Generation 链接： https://arxiv.org/abs/2301.08846 为什么是Regeneration Learning？什么是数据理解与数据生成？机器学习中一类典型的任务是学习一个从源数据X到目标数据Y的映射，比如在图像分类中X是图像而Y是类别标签，在文本到语音合成中X是文本而Y是语音。根据X和Y含有信息量的不同，可以将这种映射分成数据理解（Data Understanding）、数据生成（Data Generation）以及两者兼有的任务。图1显示了这三种任务以及X和Y含有的相对信息。图1：机器学习中常见的三种任务类型以及X和Y含有的相对信息量 X和Y的信息差异导致了采用不同的方法来解决不同的任务：对于数据理解任务，X通常比较高维、复杂并且比Y含有更多的信息，所以任务的核心是从X学习抽象表征来预测Y。因此，深度学习中非常火热的表征学习（Representation Learning，比如基于自监督学习的大规模预训练）适合处理这类任务。对于数据生成任务，Y通常比较高维、复杂并且比X含有更多的信息，所以任务的核心是刻画Y的分布以及从X生成Y。对于数据理解和生成兼有的任务，它们需要分别处理两者的问题。数据生成任务面临的独特挑战数据生成任务面临独特的挑战包括：因为Y含有很多X不含有的信息，生成模型面临严重的一对多映射（One-to-Many Mapping）问题，增加了学习难度。比如在图像生成中，类别标签“狗”对应不同的狗的图片，如果没有合理地学习这种一对多的映射，会导致训练集上出现过拟合，在测试集上泛化性很差。对于一些生成任务（比如文本到语音合成，语音到说话人脸生成等），X和Y的信息量相当，会有两种问题，一种是X到Y的映射不是一一对应，会面临上面提到的一对多映射问题，另一种是X和Y含有虚假关联（Spurious Correlation，比如在语音到说话人脸生成中，输入语音的音色和目标说话人脸视频中的头部姿态没有太大关联关系），会导致模型学习到虚假映射出现过拟合。为什么需要Regeneration Learning 深度生成模型（比如对抗生成网络GAN、变分自编码器VAE、自回归模型AR、标准化流模型Flow、扩散模型Diffusion等）在数据生成任务上取得了非常大的进展，在理想情况下可以拟合任何数据分布以实现复杂的数据生成。但是，在实际情况中，由于数据映射太复杂，计算代价太大以及数据稀疏性问题等，它们不能很好地拟合复杂的数据分布以及一对多映射和虚假映射问题。类比于数据理解任务，尽管强大的模型，比如Transformer已经取得了不错的效果，但是表征学习（近年来的大规模自监督学习比如预训练）还是能大大提升性能。数据生成任务也迫切需要一个类似于表征学习的范式来指导建模。因此，我们针对数据生成任务提出了Regeneration Learning学习范式。相比于直接从X生成Y，Regeneration Learning先从X生成一个目标数据的抽象表征Y’，然后再从Y’生成Y。这样做有两点好处： X→Y’ 相比于X → Y的一对多映射和虚假映射问题会减轻； Y’ → Y的映射可以通过自监督学习利用大规模的无标注数据进行预训练。 Regeneration Learning的形式 Regeneration Learning的基本形式/Regeneration Learning的步骤 Regeneration Learning一般需要三步，包括：将Y转化成抽象表征Y’。转换方法大体上可分为显式和隐式两种，如表1中Basic Formulation所示：显式转换包括数学变换（比如傅里叶变换，小波变换），模态转换（比如语音文本处理中使用的字形到音形的变换），数据分析挖掘（比如从音乐数据抽取音乐特征或者从人脸图片中抽取3D表征），下采样（比如将256*256图片下采样到64*64图片）等；隐式转换，比如通过端到端学习抽取中间表征（一些常用的方法包括变分自编码器VAE，量化自编码器VQ-VAE和VQ-GAN，基于扩散模型的自编码器Diffusion-AE）。表1：Y→Y’转换的不同方法步骤2：从X生成Y’。可以使用任何生成模型或者转换方法，以方便做X → Y’映射。步骤3：从Y’生成Y。通常采用自监督学习，如果从Y转化为Y’采用的是隐式转换学习比如变分自编码器，那可以使用学习到的解码器来从Y’生成Y。如表1中Extended Formulation所示，一些方法可以看成是Regeneration Learning的扩展版本，比如自回归模型AR，扩散模型Diffusion，以及迭代式的非自回归模型等。在自回归模型中，Y_{

-快资讯

2023-03-29

微软提出AIGC新“玩法”，图灵奖得主Yoshua Bengio也来了！

来源：CSDN 2023-04-05 06:08:57

相关推荐

微软提出AIGC新“玩法”，图灵奖得主Yoshua Bengio也来了！

快讯2023-04-05 03:07:48 全球新要闻

焦点速读：微商代理是什么意思呢 要怎么做呢_微商总代理是什么意思简介介绍

集邦咨询：锂价还未出现止跌迹象，预计4月动力电池价格跌幅将收窄-环球今日讯

环球快播：原创 12GB+512GB+5500mAh，三个月跌至2189元，三星2K屏旗舰售价亲民

微速讯：免疫治疗肺癌效果怎样

快快评 | 记录生活不是演绎生活，短视频“乱凹人设”要不得

萝卜花开乡村美-世界快看

【世界新要闻】在CDMO赛道中抢占身位@昊丰医疗如何规划布局？

金开新能投资成立分布式光伏发电公司 注册资本100万

推荐阅读

微软提出AIGC新“玩法”，图灵奖得主Yoshua Bengio也来了！

快讯2023-04-05 03:07:48 全球新要闻

焦点速读：微商代理是什么意思呢 要怎么做呢_微商总代理是什么意思简介介绍

集邦咨询：锂价还未出现止跌迹象，预计4月动力电池价格跌幅将收窄-环球今日讯

环球快播：原创 12GB+512GB+5500mAh，三个月跌至2189元，三星2K屏旗舰售价亲民

微速讯：免疫治疗肺癌效果怎样

快快评 | 记录生活不是演绎生活，短视频“乱凹人设”要不得

萝卜花开乡村美-世界快看

【世界新要闻】在CDMO赛道中抢占身位@昊丰医疗如何规划布局？

金开新能投资成立分布式光伏发电公司 注册资本100万

李易鑫：黄金重回震荡循环如何操作，黄金原油最新走势操作建议 全球观点

A股沦为投机场所！公募基金也开始“接盘”AI，注意AI炒作风险_世界通讯

天润乳业：销售费用投放还有一定的提升空间-即时焦点

停牌潮来袭：10家房企因核数师空缺和人员流失等原因发布停牌公告

儿童换牙期知识要点，请收好！_环球快资讯

氢能全产业链初步打通，京津冀氢燃料电池汽车示范运营超千辆

3元以内送什么礼品_天天快播

弘扬好家风 海南省“最美家庭”寻找推荐活动启动_全球快看点

大量“茅台”“五粮液”被倒进南宁一污水池？真相是……

环球时讯：苹果公司CEO库克：自己对虚拟现实头显态度发生转变 人们需要该产品

每日快讯!亚马逊河有多么可怕，为何亚马逊河没有一座桥梁可以横跨过去？

银河期货：多重博弈下 油价中枢下行_消息

【播资讯】中国女学生在泰遇害 3嫌犯已回成都 情况需要进一步核查！

高职院校排行榜 最新高职大专院校排行榜|当前热议

记者：皇马希望吕迪格能出战巴萨，门迪预计再缺席六周-环球新视野

焦点短讯！PC构件制造业务去年实现营收20.238亿元 “装配式建筑龙头”远大住工将重回增长

当前简讯:g20时间表印尼峰会开始

每日资讯：神木：多元产业“点亮”乡村振兴路

15家房企竞争！广州荔湾羊城食品厂地块“触顶”待摇号

杭州多地开展城市更新试点，划重点 最新

爱玛科技董秘回复：公司持续关注新能源框架下的技术应用，成立了爱玛研究院 天天时讯

“青春向未来·纵‘琴’欢乐音乐节”连续四天轮番上阵

2023年小学数学教学案例分析 小学数学教学案例(20篇)

有了 ChatGPT，人类懒得思考了 环球滚动

焦点讯息：《第五人格》象牙塔系列时装“囚徒”怪咖将上线

海南周刊 | 鸟类摄影师陈志刚：走遍海南 追鸟十年-全球今日报

目前文昌市在哪买房气候好，文昌房价今年是涨了还是跌了？_快看点

文案_关于文案简介

酸辣土豆丝家常做法步骤_酸辣土豆丝怎么做

英美文学文库_关于英美文学文库的简介

深邃五官却不显老的宁静，年轻时候的样子更是如同洋娃娃一般惊艳

每日精选：人民币超越欧元成为巴西第二大外汇储备货币

热文：中国采购经理指数继续位于扩张区间 经济企稳向好

白俄罗斯总统在国情咨文中强调维护国家主权和独立-全球新视野

潍柴动力2022年营收超1751亿元 预计今年销售收入整体增长约10%|世界快报

推一把拉一把扶一程_推一把_全球消息

38岁马苏有多真实？没有美颜时，是我们村的村花吗？

头条：刚刚宣布，圆满完成！

小龙虾、大闸蟹、碧螺春……官方认证“全国美食地图”来了，有你家乡的美食吗？

新天地产集团(00760.HK)2022年度综合收益达2.76亿元_世界视讯

即时焦点：hear的过去式怎么读（hear的过去式是什么）

全球连线｜我在中国学中医

临武：让忠魂归故里！请为这14名烈士寻亲

连翘商品报价动态（2023-03-31）

无需提前还贷！房子可以“带押过户”了

当前速读：雪榕生物（300511）3月31日主力资金净买入364.59万元

高级汽车维修院校排名 全国汽修学校十大排名

海尔消费金融2022年报发布，净利润同比增近四成

“数智服务进园区工程”启动 推动智慧化园区建设

【播资讯】普线_对于普线简单介绍

怕什么天道轮回什么魄散魂飞什么歌_怕什么_全球视点

天天速递！天津发布关于楼市的新文件！7个重大看点！

江南造船交付首艘24100TEU级超大型集装箱船_当前视点

清明1天假如何玩？主打短途出游 “2小时高铁圈”最热_全球信息

当前速递！美国一边打压TikTok，一边做这种事！

【全球热闻】【天眼问政】小区内违停伤脑筋 属地社区：督促物业改善治理

焦点速读：微商代理是什么意思呢要怎么做呢_微商总代理是什么意思简介介绍

金开新能投资成立分布式光伏发电公司注册资本100万

焦点速读：微商代理是什么意思呢要怎么做呢_微商总代理是什么意思简介介绍

金开新能投资成立分布式光伏发电公司注册资本100万

李易鑫：黄金重回震荡循环如何操作，黄金原油最新走势操作建议全球观点

弘扬好家风海南省“最美家庭”寻找推荐活动启动_全球快看点

环球时讯：苹果公司CEO库克：自己对虚拟现实头显态度发生转变人们需要该产品

银河期货：多重博弈下油价中枢下行_消息

【播资讯】中国女学生在泰遇害 3嫌犯已回成都情况需要进一步核查！

高职院校排行榜最新高职大专院校排行榜|当前热议

杭州多地开展城市更新试点，划重点最新

爱玛科技董秘回复：公司持续关注新能源框架下的技术应用，成立了爱玛研究院天天时讯

2023年小学数学教学案例分析小学数学教学案例(20篇)

有了 ChatGPT，人类懒得思考了环球滚动

海南周刊 | 鸟类摄影师陈志刚：走遍海南追鸟十年-全球今日报

热文：中国采购经理指数继续位于扩张区间经济企稳向好

潍柴动力2022年营收超1751亿元预计今年销售收入整体增长约10%|世界快报

高级汽车维修院校排名全国汽修学校十大排名

“数智服务进园区工程”启动推动智慧化园区建设

【全球热闻】【天眼问政】小区内违停伤脑筋属地社区：督促物业改善治理

internet接入方式有几种_internet接入方式当前时讯

广州民政局回应扫墓预约系统输入先人名字受限：现已不用填写先人名字天天热点评

焦点快看：开封三个月的食用油会产生毒素吗一瓶打开的食用油能放多久

菜鸟与联合国世界粮食计划署达成战略合作最新

用足用好区域内双边政策 RCEP合作将深化每日热议

世界动态:时代邻里2022年收入26.06亿元净亏损约1.99亿元

3月29日山东地区加氢苯市场价格上涨环球报资讯

视点！【天气与生活】今日继续升温暖意越来越浓