行业资讯 – - //m.krtcgo.com 新一代人工智能开源开放平台 Wed, 29 Dec 2021 07:24:24 +0000 zh-Hans hourly 1 https://wordpress.org/?v=6.9 //m.krtcgo.com/wp-content/uploads/2025/04/favicon.png 行业资讯 – - //m.krtcgo.com 32 32 解读人工智能的 2021:超大规模预训练模型爆发,自动驾驶迎来商业化前夜 //m.krtcgo.com/%e8%a7%a3%e8%af%bb%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e7%9a%84-2021%ef%bc%9a%e8%b6%85%e5%a4%a7%e8%a7%84%e6%a8%a1%e9%a2%84%e8%ae%ad%e7%bb%83%e6%a8%a1%e5%9e%8b%e7%88%86%e5%8f%91%ef%bc%8c%e8%87%aa/ //m.krtcgo.com/%e8%a7%a3%e8%af%bb%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e7%9a%84-2021%ef%bc%9a%e8%b6%85%e5%a4%a7%e8%a7%84%e6%a8%a1%e9%a2%84%e8%ae%ad%e7%bb%83%e6%a8%a1%e5%9e%8b%e7%88%86%e5%8f%91%ef%bc%8c%e8%87%aa/#respond Wed, 29 Dec 2021 07:24:24 +0000 https://new.openi.org.cn/%e8%a7%a3%e8%af%bb%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e7%9a%84-2021%ef%bc%9a%e8%b6%85%e5%a4%a7%e8%a7%84%e6%a8%a1%e9%a2%84%e8%ae%ad%e7%bb%83%e6%a8%a1%e5%9e%8b%e7%88%86%e5%8f%91%ef%bc%8c%e8%87%aa/ 微信图片_20211229153113.jpg

即将过去的 2021 年,又是跌宕起伏的一年。疫情仍没有结束的苗头,缺芯造成的供应链中断此起彼伏,与此同时,数字化、智能化转型已是大势所趋。全球企业和机构在不断学会适应“新常态”,并从中捕捉新的商业机会。

2021 年, 人工智能领域依然热潮汹涌。AphaFold2 成功预测 98%蛋白质结构,预训练大模型迎来大爆发,自动驾驶迈入商业化试点探索新阶段,元宇宙概念东风劲吹,首个关于 AI 伦理的全球协议通过,商汤科技即将摘得“AI 第一股”… 前沿技术突破令人欣喜,落地应用“润物细无声”般深入各行业,业界也开始正视人工智能的问题和挑战。

在岁末年初之际,InfoQ 采访了众多行业专家,回顾了 2021 年人工智能大模型、深度学习框架、 NLP、智能语音、自动驾驶、知识图谱等各项 AI 技术的发展情况,并展望了未来一年可能的技术趋势。

2021 年度 AI 技术突破

人工智能预测蛋白质结构

12 月 15 日,Nature 发布了《2021 年十大科学新闻》;12 月 17 日,Science 紧随其后,公布了《2021 年度十大科学突破》。Nature 和 Science 都将「人工智能预测蛋白质结构」评为本年度最重要的发现,Science 更是将其列为“2021 年十大科学突破进展”之首。

长期以来,蛋白质结构的预测一直是生物学领域的研究热点和难点。传统的蛋白质结构探测方法主要有三种:X 射线晶体学、核磁共振和冷冻电镜。但这些方法成本较高,研究周期漫长,且进展有限。

人工智能为这一困扰生物学界数十年的难题按下了快进键。

今年 7 月,蛋白结构两大 AI 预测算法 —— DeepMind 的 AphaFold2 和华盛顿大学等机构研发的 RoseTTAFold 相继开源。

AphaFold2“解锁”98%人类蛋白质组

7 月 16 日,DeepMind 在 Nature 发表论文,宣布已利用 Alpha Fold2 预测了 35 万种蛋白质结构,涵盖了 98.5%的人类蛋白质组,及其他 20 种生物几乎完整的蛋白质组。研究团队还公布了 AlphaFold2 的开源代码和技术细节。

RoseTTAFold 可十分钟内计算出蛋白质结构

同日,华盛顿大学蛋白设计研究所 David Baker 教授课题组及其他合作机构在 Science 上发表论文 ,公布了其开源蛋白质预测工具 RoseTTAFold 的研究结果。研究团队探索了结合相关思想的网络架构,并通过三轨网络获得了最佳性能。三轨网络产生的结构预测精度接近 CASP14 中的 DeepMind 团队的 AlphaFold2,且速度更快、所需计算机处理能力更低。仅用一台游戏计算机,在短短十分钟内就能可靠地计算出蛋白质结构。

其他研究进展

8 月,中国研究人员使用 Alpha Fold2 绘制了近 200 种与 DNA 结合的蛋白质结构图。11 月,德国和美国的研究人员利用 Alpha Fold2 和冷冻电镜绘制了核孔复合物的结构图。12 月 22 日,深势科技推出了蛋白结构预测工具 Uni-Fold,在国内首次复现谷歌 Alphafold2 全规模训练并开源训练、推理代码。

AI 技术 2021 年发展总结与展望

人工智能迈向“炼大模型”阶段

今年是超大规模预训练模型的爆发之年。

去年,GPT-3 横空出世,这个具有 1750 亿参数规模的预训练模型所表现出来的零样本与小样本学习能力刷新了人们的认知,也引爆了 2021 年 AI 大模型研究的热潮。

谷歌、微软、英伟达、智源人工智能研究院、阿里、百度、浪潮等国内外科技巨头和机构纷纷展开大模型研究和探索。

超大规模预训练模型的“军备竞赛”

2021 年 1 月,Google 推出的 Switch Transformer 模型以高达 1.6 万亿的参数量打破了 GPT-3 作为最大 AI 模型的统治地位,成为史上首个万亿级语言模型。

国内研究机构也不甘示弱。今年 6 月,北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”,达到 1.75 万亿参数,超过 Switch Transformer 成为全球最大的预训练模型。

值得一提的是,今年国产化大模型研发工作进展飞速,华为、浪潮、阿里、百度等都发布了自研的大模型。

浪潮人工智能研究院首席研究员吴韶华向 InfoQ 表示,现在业界提高模型参数量有两种技术路线,产生两种不同的模型结构,一种是单体模型,一种是混合模型。如浪潮的源大模型,华为的盘古大模型、百度的文心大模型、英伟达联合微软发布的自然语言生成模型 MT-NLG 等走的都是单体模型路线;而智源的悟道模型、阿里 M6 等走的是混合模型路线。

预训练模型技术新进展

OPPO 小布智能中心、 NLP 算法工程师曾冠荣认为,预训练模型在今年取得的重要技术进展有:

  • 知识表示和学习机理进一步创新突破 随着对预训练模型的深入理解,预训练模型的知识学习和表征的机理逐步明确,人们得以更加顺利地往模型里注入需要其学习的知识,在这些知识的加持下,对复杂任务的应对能力得到了大幅提升。

  • 对比学习、自监督和知识增强

以对比学习为中心,多种增强方法为工具的方式能进一步提升预训练模型的语义理解和表征能力,增强方法的深入让模型自监督成为可能,让对比学习对样本,尤其是正样本的依赖降低,数据依赖的降低势必让模型对少样本甚至无样本任务的适应性提升,模型能更好地完成这类型的任务,这将让预训练模型落地的成本再降低一个层次。

降低 AI 规模化落地的门槛

预训练大模型降低了 AI 应用的门槛,解决了 AI 应用的两个难题:数据和行业知识。它既不需要大量的标注数据,又保障了基础底座。

在预训练模型的业务定制优化和应用方面,曾冠荣认为,从第一个预训练语言模型 BERT 发布至今,已在多个热门任务下得到应用,逐步从一种“潮流”变成前沿技术的“基本操作”,如预训练模型已成为机器翻译领域的基础关键性技术。此外,预训练模型也成为大系统中的一部分,发挥着其语义理解的优势。

无论是业界还是科研,对预训练模型的使用方式逐渐灵活,能从预训练模型中拆解出适合任务的部分并组装到自己的实际任务模型中。

时至今日,对预训练大模型的性能优化仍未终止,在学界,仍有大量的研究在预训练模型的落地能力上努力,压缩、剪枝、蒸馏的工作仍起到重要作用。不止于算法本身,编译、引擎、硬件等方面的优化也在大步迈进。

小结和展望

吴韶华认为,整体而言,现在大规模预训练模型的研究,包括模型结构的演进和落地仍处在探索阶段,各家的持续探索正在不断扩大对大规模预训练模型的认知边界。

“大规模预训练模型是人工智能的最新技术高地,是对海量数据、高性能计算和学习理论原始创新的全方位考验”,清华大学教授、智源大模型技术委员会成员刘知远在接受 InfoQ 采访时展望了明年大模型的发展趋势。

刘知远表示,他明年将重点关注两个层面的问题:

一是人工智能技术正呈现“大一统”趋势,如预训练模型在 Prompt Tuning 等技术的支持下可用于很多不同的任务,再如 Transformer 模型框架正在从自然语言处理扩展到计算机视觉模态,接下来我们也许会看到更多的从框架、模型和任务等方面推进人工智能技术趋向统一的工作;另一个问题是,随着预训练模型规模增大,如何更好更高效地实现任务适配和推理计算,将是让大模型飞入千家万户的重要技术。

国产深度学习框架不再是“技术的跟随者”

过去十年涌现了大量的 AI 算法和应用,这背后都离不开开源深度学习框架提供的支持。

开源深度学习框架是 AI 算法研发和 AI 应用落地的“脚手架”,帮助 AI 研究员和开发者大幅降低算法研发门槛,提升研发效率。

IDC 的调研显示,中国人工智能领域 90%以上的产品都使用了开源的框架、库或者其他工具包。

新进展,新趋势

深度学习框架的发展核心是跟随着深度学习领域的发展而前进的。

开源深度学习框架旷视天元 MegEngine 研发负责人许欣然在接受 InfoQ 采访时,分享了过去这一年他所观察到的深度学习的新进展:

(1)以 ViT、Swin 为代表的 Transformer 类模型开始向 NLP 以外的领域进军,在更多场景中展现威力,让“大”模型的趋势愈演愈烈。

相应的,深度学习框架也在训练大模型方面进展颇多(如 DeepSpeed+ZeRO),多种混合并行方案层出不穷。无论是深度学习框架还是硬件厂商,都在思考 Transformer 是否是会长期固定的计算 pattern。

(2)A100 这类显卡的诞生,催生了一股从动态图回到静态图的趋势。本身对动态图更友好的框架也纷纷尝试通过编译的方式提升效率,比如 PyTorch 的 LazyTensor、Jax 的 XLA。 很多国产框架也在尝试通过动静结合的方式提升效率,比如旷视天元 MegEngine 推出的 Tensor Interpreter、MindSpore 的 Python 代码转静态图的方案等。

此外,MLIR 和 TVM 这两个深度学习编译器领域的灯塔都在快速增长,如何靠机器做好编译也正成为各个深度学习框架研发的主要方向。同时随着深度学习方法的持续发展,也诞生了更多的新兴框架,如图神经网络领域的 DGL。

技术自立之路

近两年,国产深度学习框架陆续开源且发展迅速,逐渐在开源框架市场占有一席之地。

在技术研发方面,国产框架不再是技术的“跟随者”的角色,研发出了很多领先的创新点,比如 MegEngine 的 DTR 技术、OneFlow 的 SBP 并行方案和 MindSpore 的 AKG 等等。此外,在功能、代码质量和文档等方面都达到了很高的水准。

在开源生态建设方面,各家也都持续投入,通过开源社区扶植、产学研合作等方式,助力国产开源生态的发展和人才培养。

业界现有的主流深度学习框架多来自国外大厂,目前,国内企业自研的深度学习框架还没有哪一款进阶成为国际主流的学习框架。

许欣然坦言,国产深度学习框架在生态建设上还有很长的路要走,既需要持续投入、不断完善生态建设,也需要找到差异化的技术竞争点,充分结合我国国情和国产硬件,发挥好自身的技术优势和更好的生态洞察力。

研发难点

现阶段,在深度学习框架方面,业界普遍面临的研发难点主要体现在以下三个方面:

(1)在训练侧,NPU 开始入场,不少厂商已经做出自己的训练芯片,如何高效对接训练 NPU 仍待解决;

(2)学术研究发展迅速,框架技术需要持续跟进,这为框架研发带来了一定挑战。接下来一段时间会持续一段大 Transformer 的趋势,那么,下一个趋势是什么?

(3)算力提升速度更多地开始依赖 DSA 硬件,只是单纯的手写 kernel 已难以支撑,框架需要更多的编译技术、domain knowledge 才能不断提升训练效率。 随着 NPU、GPU 等芯片的快速迭代,包括 MLIR、XLA、TVM 在内的编译技术将受到更多关注。

将更好地支持大模型训练

随着大模型的持续火热,预期深度学习框架将在并行策略、重计算等能力上不断提升,以更好地支持大模型的训练。

同时,目前训练大模型仍需消耗大量资源,如何依靠深度学习框架的力量节省计算资源,甚至在更小规模上完成任务,将是一个值得探索的技术方向。

智能语音这一年:技术突破不断,工业落地加速

语⾳领域的⼤规模预训练模型层出不穷

字节跳动 AILAB 语⾳技术总监⻢泽君向 InfoQ 表示,2021 年度,智能语音技术的演进呈现出三个层面的趋势:

(1)基础建模技术在打破领域边界加速融合,如 Transformer 系列模型在⾃然语⾔、视觉和语⾳领域都展现出⼀致性的优势,颇有“⼀统江湖”的意思。

(2) 超⼤规模⾃监督学习技术(self-supervised learning)在上述多个领域展现出很强的通⽤学习能⼒,即在海量⽆标签数据上训练⼤规模通⽤预训练模型,然后⽤少量有标签数据做精细调整就能取得⾮常好的效果。

过去⼀年里,基于这种两段训练模式的超⼤模型不断刷新各项学术算法竞赛纪录,在⼯业界也成为⼀种模型训练和调优范式。

最近⼀年,Facebook、亚⻢逊、⾕歌和微软等公司的研究学者陆续提出语⾳领域的⼤规模预训练模型, 如 Wav2vec、 HuBERT、 DecoAR、 BigSSL、WavLM 等。

(3)除基础技术外,在不同应⽤场合场景下,多个领域模态的技术也在快速相互融合,形成视觉、语⾳和语义结合的多模态综合系统,如虚拟数字⼈。

工业界落地加速

整体来说,智能语⾳技术在⼯业界的落地不断加速,来⾃业务和技术两个⽅向的合⼒共同作⽤牵引和驱动应⽤落地。

从应⽤场景的牵引看,⼀⽅⾯如短中⻓视频业务,在全球仍保持着较⾼的增⻓速度,视频内容创作者和内容消费者活跃度很⾼;另⼀⽅⾯,疫情令居家办公和远程协作的需求增⻓,智能语⾳技术能在视频会议中提供通信增强和语⾳识别等关键能⼒,为参会者提供更佳的会议体验;以智能汽⻋和虚拟现实 VR/AR 为代表的新场景不断出现,需要更⽅便、更低延迟、更沉浸式的语⾳交互体验。

从核⼼技术的驱动看,基础模型改进和⾃监督技术不断提升着模型性能上限,同时多模态技术融合使得技术⽅案的能⼒越来越强,可⽀持更复杂的场景并带来更好的体验。

商业化难点主要在于商业模式选择

马泽君认为,现阶段,智能语音商业化的难点主要是商业模式探索和路线选择的问题,具体包括如何更好地满⾜需求,控制成本以及保证交付质量。

⼀⽅⾯,AI 商业模式探索需要始终围绕需求展开,提升模型效果和在真实场景中解决用户或客户的问题不能等同。解决实际问题需要 AI 研发⼈员深⼊业务场景,理解需求和条件限制,找到合理的产品技术⽅案,并不断思考和抽象功能和技术,沉淀通⽤的技术解决⽅案,探索验证可规模化的标准产品,降低定制周期和代价。

另⼀⽅⾯,AI 技术研发成本⾮常⾼,如何通过优化算法低对领域数据依赖,建设⾃动化平台降低⼈⼒消耗和提升研发流程效率对成本控制⾮常关键。

最后还要重视交付质量和售后服务。只有同时做好上述三个环节,才能完成从需求到交付到服务的整个链路,从而奠定规模商业化的基础。

端到端和预训练等技术仍然值得关注

  • 端到端序列建模技术

(1)准确率和推理速度更上⼀层楼的端到端技术值得期待,其中对⻬机制(alignment

mechanism)是端到端序列建模的关键。字节跳动 AILAB 正在探索的连续整合发放 CIF 模型(Continuous Integrate-and-Fire)是一种创新的序列端到端建模对齐机制,具有软对齐、计算代价低和容易扩展的特性。

(2)在端侧设备上的端到端语⾳识别和合成技术落地值得关注,特别是轻量级、低功耗、⾼准确度和定制灵活的端到端语⾳识别和合成技术。

(3)端到端语⾳识别技术⽅向的热词定制和领域⾃适应技术⾮常可能有重⼤进展。

  • ⽆监督预训练技术 (1)超⼤数据规模和模型 size 的语⾳⽆监督预训练技术值得关注,语⾳⽆监督预训练的 BERT 已经出现(Wav2vec2.0/Hubert), 语⾳⽆监督预训练的 GPT-3 很可能在 2022 年到来。

(2)多模态语⾳⽆监督预训练技术也⾮常吸引⼈,该技术可能会极⼤地提升预训练模型的表征能⼒,从⽽带来⽆监督预训练技术更⼤范围的落地应⽤。

(3)无监督预训练技术在语⾳合成、⾳乐分类、⾳乐识别领域的应⽤同样值得关注,借助⽆监督预训练的声学⾳频表征,可以有效提升下游任务的性能。

  • 语⾳对抗攻击与防御技术。 (1)语⾳领域的对抗攻击,从攻击⼿段上来看,将从当前的⽩盒攻击,进⼀步进化成⿊盒攻击;从攻击内容来看,将从当前流⾏的 untarget 攻击进化成 target 攻击。

群雄逐鹿,谁能赢得自动驾驶之战?

2021 年,自动驾驶领域格外热闹。

造车热

今年,互联网大厂、新造车势力和传统企业纷纷进场布局自动驾驶,可以说能下场的巨头们基本上都下场造车了,自动驾驶“战场”群雄逐鹿,不知未来谁执牛耳?

在资本市场上,自动驾驶也备受追捧。据零壹智库分析,继 2016-2018 年热潮之后,2021 年自动驾驶领域迎来第二次投资热潮。今年 11 月,Momenta 完成超 10 亿美元 C 轮系列融资,创下本年度自动驾驶领域最大规模融资记录。

商业化前夜

Robotaxi 是自动驾驶最有价值的商业模式,现阶段,很多自动驾驶技术公司都在做 Robotaxi 的尝试。今年,很多自动驾驶车辆从封闭路测场地走向真实道路。百度、小马智行、文远知行、等企业已实现面向公众的示范运营,开始探索商业化。11 月,国内首个自动驾驶出行服务商业化试点在北京正式启动,百度和小马智行成为首批获许开展商业化试点的企业。业内人士认为,这标志着国内自动驾驶领域从测试示范迈入商业化试点探索新阶段。

今年,自动驾驶卡车赛道也格外火热,量产和商业化均提速,头部玩家走向上市。近日,毫末智行董事长张凯在接受 InfoQ 等媒体采访时谈到了自动驾驶卡车的发展,他表示,相对乘用车辅助自动驾驶运行场景的复杂性,RoboTruck 具有一些优势,例如长时间运行在较畅通的高速公路上,运行场景相对简单。现阶段,RoboTruck 走得是类似于乘用车般从辅助驾驶到无人驾驶渐进式的发展路线。从发展前景看,Robotruck 具备商业化闭环的可行性,但自动驾驶系统的量产将会是一个坎。

毫末智行 COO 侯军认为,2021 年是自动驾驶的爆发之年。一方面,得益于技术的持续进步、市场需求、政策加持、资本看好等各方面因素,高级别自动驾驶在落地探索方面,已有了初步的成果;另一方面,智能驾驶商业化落地也在快速渗透,开始走向量产时代。

2022,这些技术将是下半场竞争胜负的关键

根据张凯的预判,“2022 年将是自动驾驶行业发展最为关键的一年。乘用车辅助驾驶领域的竞争将会正式进入下半场,而下半场竞争的场景将会是城市开放场景。其他场景的自动驾驶也将正式进入商业化元年”。

张凯认为,2022 年,多项自动驾驶技术值得关注。

(1)数据智能将成为自动驾驶量产决胜的关键。 数据智能体系是自动驾驶商业化闭环的关键所在,搭建高效、低成本的数据智能体系有助于推动自动驾驶系统不断迭代前行。

(2)Transformer 与 CNN 技术深度融合,将会成为自动驾驶算法整合的粘合剂。Transformer 技术帮助自动驾驶感知系统理解环境语义更深刻,与 CNN 技术深度融合能解决 AI 大模型量产部署的难题,这是自动驾驶行业下半场竞争的关键技术。

(3)大算力计算平台将在 2022 年正式量产落地,Transformer 技术与 ONESTAGE CNN 技术都需要大算力计算平台做支撑。

(4)随着自动驾驶系统的量产和规模化,激光雷达与机器视觉组成的 AI 感知技术,将与大算力计算平台深度融合,这将大幅提升自动驾驶感知、认知模块的运行效率。

NLP,黄金时代持续?

这几年,NLP 处于快速发展阶段。去年,多位 NLP 专家评判,NLP 迎来了大爆发的黄金时代。那么今年,NLP 的发展情况如何?

基于提示的微调技术迅速流行

作业帮产研中心蒋宏飞博士告诉 InfoQ,今年基于提示的微调 (prompt-based tuning)的技术迅速流行起来,这是一种人类知识和大模型较高效的结合模式。该技术是今年较值得关注的新进展。

“今年 NLP 在基础模型方面没有大的突破。预训练模型方面,今年涌现了很多很大的模型,但整体上同质化也较严重,对于工业界实践效果来讲,往往按照‘奥卡姆剃刀’原则,倾向于使用最适当的如 Bert 往往就够了”蒋宏飞表示。

现阶段,NLP 技术在发展过程中还存在不少技术挑战,其中之一便是很难获取到大量高质量的标注数据。深度学习依赖大规模标注数据,对于语音识别、图像处理等感知类任务,标注数据相对容易,但 NLP 往往是认识类任务,人的理解都有主观性,且任务和领域众多,导致大规模语料标注的时间成本和人力成本都很大。

与 CV、语音识别相比,NLP 项目在业务中落地往往较慢

NLP 落地项目往往和业务强相关。不像图像识别、语音识别,通用能力在具体业务也有大量落地场景,业务和算法协作边界和指标相对好确定。而 NLP 项目在业务中落地往往会比较慢,需要上下游不断深度磨合对齐。

NLP 解决的是最难的认知智能,而人类语言的歧义性、复杂性、动态性令其挑战重重。但 NLP 商业化落地必须面对这些本质的难题,所以不太可能有通用性的“一招吃遍天”的技术方案。

“尽管现在的预训练模型一直在往这个方向努力,但我认为起码目前这种 Transformer 式的,或者更通用地说,DNN 这种蜂巢智能式的技术范式不太行。所以,大家能看到也有不少研究学者在知识图谱类的各种其他范式上在做努力”蒋宏飞说。

通用性的模型既然走不通,那垂类单一具体场景任务为什么也不能快速搭建?这个问题又涉及到数据的问题。数据标准的对齐、数据标注一致且高效、数据覆盖度和均衡度、长尾数据的处理、数据动态漂移等都是 NLP 从业者每天面对的麻烦事。而相关的方法论和基础工具还很不系统、不齐备,这是未来想达到快速商业化目的前必须打好的基础。

明年,NLP 将在哪些场景实现规模化落地?

2022 年,NLP 的大规模化应用可能会出现在以下行业出现突破:

  • 教育智能化

  • 场景化高标准机器辅助翻译,如专业领域文档翻译、会议实时翻译等。

  • 服务运营智能化:培训、销售、营销、服务等场景的智能化。

  • 外文学习/写作智能辅助,参考 Grammarly 和 Duolingo 的快速发展。

  • 医疗智能化。文本广泛存在于电子病历、临床试验报告、医学产品说明书、医学文献中。分析、挖掘和利用这些文本,有大量且能直接使用的场景,可能会有突破式发展。

  • 代码智能分析。代码 bug 识别、代码智能优化等。

2022 年,NLP 值得关注的技术点

  • 基于提示的微调 (prompt-based tuning)的技术。

  • 具有逻辑推理的文本生成技术、具有良好控制性以及一致性的文本生成技术。文本生成要在严肃场景用起来就必须满足这些,否则只能应用在娱乐场景。

  • 多模态技术。如 NLP+CV、 NLP + Image、 NLP+ Speech 等。

  • 主动学习、数据增强等。NLP 大规模快速落地时的很多痛点需要这些技术来缓解。

  • 代码智能。代码问题识别、代码翻译、自动代码优化、代码工作量评估(如 Merico 的方案)。

元宇宙概念大火,计算机视觉是基石技术之一

回首过去的一年,OPPO AI 技术产品化专家(语音语义和计算机视觉以及多模态融合方向)何苗总结了计算机视觉在工业界和学术界的进展。

具身智能,从被动式 AI 转向主动式人工智能

具身智能(embodied AI),强调智能体(agent)要与真实世界进行交互,并通过多模态的交互 — 不仅仅是让 AI 学习提取视觉上的高维特征,被“输入”的认知世界,而是通过“眼耳鼻舌身意”六根来主动获取物理世界的真实反馈,通过反馈进一步让智能体学习并使其更“智能”、乃至“进化”。

今年 2 月,李飞飞提出了一套新的计算框架—— DERL(deep evolution reinforcement learning)深度进化强化学习。她提到了生物进化论与智能体进化的关系,并借鉴了进化论的理论应用于假设的智能体的进化学习中。

进入元宇宙,需要智能感知和交互这张门票

今年,元宇宙概念大火,各家纷纷入局。

Facebook 极为推崇元宇宙,为了表示投入元宇宙的决心,今年,Facebook 改名为 meta,并宣布 “all in 元宇宙”。

扎克伯格提出云宇宙需要具备八要素,其中之一是 Presence 开发平台/套件。Presence 是 meta 为 Oculus VR 头显开发者提供的元宇宙基础开发套件,提供的即为基于计算机视觉和智能语音技术的工具集,分别是 insight sdk、interaction sdk 和 voice sdk。

进入元宇宙需要智能感知与交互技术这张门票,而这张门票里的视觉和语音技术是最重要的基石。

趋势一:面向内容生成的 AIGC

元宇宙世界需要孪生大量现实世界的物体或是对于现实世界的人物进行重建,而这些海量的重建必然不能按照传统游戏世界中的方法,由 CG 工程师一个个手工制作,这样效率远远无法满足实际场景的需求。因此面向内容生成的 AIGC(算法层面)是必要的。相关技术方向包括:图像超分、domain 迁移、外推、类似 CLIP(对比式语言图像预训练模型,可以从自然语言监督中有效学习视觉模型)的隐式神经表示 — 通过文字描述来生成图像等多模态的(CV+NLP)等相关技术。

趋势二:SCV 合成

虚拟现实引擎有专门的生成合成数据的组件,这些合成数据不仅美观,而且有助于训练更好的算法。

生成/合成的数据不仅是元宇宙的必备要素,也是训练模型的重要原料。如果有合适的工具来构建数据集,就可省去繁琐的给数据手工打标的过程,更好地对计算机视觉算法进行开发和训练。

知名数据分析公司 Gartner 认为在未来 3 年中,合成数据将比真实数据更占优势。在合成计算机视觉(SCV)中,我们使用虚拟现实引擎训练计算机视觉模型,并将训练好的模型部署到现实世界。

制约知识图谱商业化落地的主要问题在于标准化

重要技术进展

知识图谱技术在过去这一年取得的重要技术进展有:

知识抽取方面,多模态信息抽取在同时处理文本和视频方面取得了进展;知识表示方面,自注意力机制的知识表示方法越来越走向实用;知识应用方面,很多行业开始构建行业知识库,用于各类下游任务。

明略科技资深科学家张杰在接受 InfoQ 采访时指出,现阶段,在知识图谱方面,业界普遍面临的研发难点主要体现在两个方面:算法方面,针对非结构化数据的信息抽取和实体对齐的准确度难以保障直接商用,需人工校验;工程方面,行业图谱构建成本高,需要大量的人工标注,另外构建进度也不是一蹴而就,需要业务专家不断运维。

张杰预测,2022 年,领域预训练语言模型和 Prompt 在知识图谱中的应用,有望使得信息抽取环节得到进一步提升。针对技能性知识的抽取技术和多模态抽取技术,商用前景广阔。

应用落地进展

2021 年,知识图谱技术的应用落地,在 ToC 场景中仍主要用于搜索、推荐的提升,在 ToB 场景中集中在可视化上。

张杰认为,现阶段,制约知识图谱商业化落地的主要因素在于标准化,行业图谱的 schema 很难在企业内部大范围内达成认知的一致性,影响了后续的标注、抽取、应用。

2022 年,知识图谱技术的大规模化应用可能会在制造业出现突破,制造业的知识密度高、重视标准化,头部企业重视数字化建设,积累了大量原始数据。

2022 年,值得关注的重要技术趋势

人工智能工程化

近两年,人工智能工程化(AI Engineering)格外受关注。在 Gartner 发布的 2021 年和 2022 年重要战略技术趋势中,人工智能工程化都被列入其中。人工智能工程化是一种实现人工智能模型操作化的综合方法。

不久前,Gartner 高级研究总监高挺曾在接受 InfoQ 采访时表示,AI 工程化本质上是 AI 在企业中大规模、全流程的落地过程,尽管目前大家现在对 AI 期待很高,但实际上 AI 目前的应用仍然是被低估的。因为,很多 AI 项目的价值只能体现在一些“点对点”的一次性的方案中。将 AI 大规模落地的工程化方法(包含 DataOps、ModelOps 和 DevOps)总和起来,便是“AI 的工程化”的一整套体系。

人工智能工程化对企业有很多好处,企业在进行人工智能落地的时候,落地效率、落地广泛度会更高。

可以预见,人工智能工程化将会是未来 2-3 年需要持续关注的方向,人工智能工程化应该关注三大核心要点:数据运维、模型运维、开发运维。

Gartner 预测,到 2025 年,10%建立人工智能工程化最佳实践的企业从其人工智能工作中产生的价值将至少比 90%未建立该实践的企业高出三倍。

生成式 AI 渐成趋势

生成式人工智能(Generative Artificial Intelligence)也被 Gartner 评为 2022 年重要战略技术趋势之一。

该机器学习方法从其数据中学习内容或对象,并运用数据生成全新、完全原创的实际工件。人们可以用 AI 来创造出一些新事物,如内容创作、创建软件代码、辅助药物研发等。

近日,机器学习大牛吴恩达发文回顾了 AI 在 2021 年的四个重要进展,其中之一便是,AI 生成音频内容呈现出主流化倾向。现在音乐家和电影制作人们,已经习惯于使用 AI 支持型音频制作工具。

在国内的优酷、爱奇艺等视频平台,AI 也已经广泛用于音、视频的内容生产和创作中,如 AI 辅助视频制作、智能字幕生成、智能翻译、特效生成等。

Gartner 认为,未来一段时间内,AI 会逐渐从一个做判断的机器变成一个做创造的机器。预计到 2025 年,生成式人工智能将占所有生成数据的 10%,而目前这一比例还不到 1%。

不过该技术还存在一定的争议,如会被滥用于诈骗、欺诈、政治造谣、伪造身份等,存在道德和法律风险。

元宇宙,狂热的新风口

2021 年,可能没什么技术名词比“元宇宙”热度更高了。全球很多公司都在讲元宇宙的概念,认为元宇宙是指向互联网的“终极形态”。如今,移动互联网的红利已经见顶,不知道互联网的尽头是否会是元宇宙?

所谓元宇宙,是一个虚拟时空间的集合, 由一系列的增强现实(AR), 虚拟现实(VR) 和互联网(Internet)所组成。元宇宙的实现,仰赖一系列前沿技术作支撑,包括人工智能、VR/VR、5G、云计算、大数据、区块链等基础设施。

元宇宙中可以重点关注的细分赛道有 VR/AR 、游戏、社交、Metahuman 等。文娱基金易凯资本在其元宇宙报告中也表示,长期看好基于上述形态的底层技术公司。易凯资本预测,在未来十年,元宇宙概念将依旧集中于社交、游戏、内容等娱乐领域,到 2030 年会渗透到提升生产生活效率的领域。

写在最后

总结人工智能在 2021 年的发展,涌现了不少激动人心的重大突破,人工智能也正在赋能、改变甚至颠覆许多行业。当然也仍有很多难点需要投入更多时间攻克。

近日,李彦宏对 AI 的未来发表评论:“人机共生”时代,中国将迎来 AI 黄金十年。而未来十年,AI 技术应用门槛将显著降低,为各行各业的智能化转型提供技术“大底座”。

人工智能发展已渐入深水区,期待明年以及之后的 10 年,人工智能能够在技术和落地上取得更多进展,为下一个“黄金十年”而努力。

采访嘉宾介绍(按姓名首字母排序):

何苗,OPPO AI 技术产品化专家

侯军,毫末智行 COO

蒋宏飞,作业帮产研中心

刘知远,清华大学教授、智源大模型技术委员会成员

⻢泽君,字节跳动 AILAB 语⾳技术总监

吴韶华,浪潮人工智能研究院首席研究员

许欣然,旷视天元 MegEngine 研发负责人

曾冠荣,OPPO 小布智能中心、 NLP 算法工程师

张杰,明略科技资深科学家

张凯,毫末智行董事长

来源 | InfoQ

]]>
//m.krtcgo.com/%e8%a7%a3%e8%af%bb%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e7%9a%84-2021%ef%bc%9a%e8%b6%85%e5%a4%a7%e8%a7%84%e6%a8%a1%e9%a2%84%e8%ae%ad%e7%bb%83%e6%a8%a1%e5%9e%8b%e7%88%86%e5%8f%91%ef%bc%8c%e8%87%aa/feed/ 0
北航成立人工智能研究院:整合全校AI资源,建设“新工科”典范 //m.krtcgo.com/%e5%8c%97%e8%88%aa%e6%88%90%e7%ab%8b%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e7%a0%94%e7%a9%b6%e9%99%a2%ef%bc%9a%e6%95%b4%e5%90%88%e5%85%a8%e6%a0%a1ai%e8%b5%84%e6%ba%90%ef%bc%8c%e5%bb%ba%e8%ae%be/ //m.krtcgo.com/%e5%8c%97%e8%88%aa%e6%88%90%e7%ab%8b%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e7%a0%94%e7%a9%b6%e9%99%a2%ef%bc%9a%e6%95%b4%e5%90%88%e5%85%a8%e6%a0%a1ai%e8%b5%84%e6%ba%90%ef%bc%8c%e5%bb%ba%e8%ae%be/#respond Fri, 17 Jan 2020 08:14:06 +0000 https://new.openi.org.cn/%e5%8c%97%e8%88%aa%e6%88%90%e7%ab%8b%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e7%a0%94%e7%a9%b6%e9%99%a2%ef%bc%9a%e6%95%b4%e5%90%88%e5%85%a8%e6%a0%a1ai%e8%b5%84%e6%ba%90%ef%bc%8c%e5%bb%ba%e8%ae%be/
北航成立人工智能研究院:整合全校AI资源,建设“新工科”典范

近日北京航空航天举行人工智能研究院成立大会,这也是继武汉大学在2019年11月22日成立人工智能研究院之后,又一双一流高校具体落实人工智能工作布局。

北航成立人工智能研究院:整合全校AI资源,建设“新工科”典范

校党委书记曹淑敏、校长徐惠彬,人工智能研究院院长郑志明、党委书记金蓉为研究院揭牌。从左到右依次为金蓉、徐惠彬、曹淑敏和郑志明。

新成立的人工智能研究院院长由郑志明院士担任。郑院士是北京航空航天大学教授,2017年当选为中国科学院院士,主要工作集中于空天信息安全与复杂信息系统等数学与信息交叉领域的研究。他创立了动力学密码——基于代数和动力学融合的密码分析原理和方法,突破空天信息安全高速、低耗、多模式等技术瓶颈,研制成功系列空天安全新装备并列装。

北航成立人工智能研究院:整合全校AI资源,建设“新工科”典范

郑志明院士
 

据郑志明院士表示,北航人工智能研究院将以面向科学数据的精准智能理论为基础,并由智能理论核心、智能技术平台和智能应用系统组成建设路线和下一步规划设想。郑志明院士在发言表示:特别要指出的是,我校人工智能发展论证的结论,与当前很多国内外人工智能研究机构的研究特点有非常显著的不同。我们是在原有的良好的理论、技术、应用基础上开展的。今后人工智能的发展,无论理论、技术还是应用,都将会迁移到面向科学数据的精准智能理论之上,这个理论是我们学校多年发展起来的理论。从精准智能理论原始创新导出颠覆性的技术,到变革性的应用,不仅学术站位高,同时将推动我校航空航天和信息技术领域的重大创新,并产生系列重要成果。我们有信心在学校党委领导下,走在理论最前沿,占领技术的新制高点,取得产业的新优势。起点越高,难度越大,这将是一个多学科深度交叉的难题,唯有发扬北航空天报国精神,坚持‘十年磨一剑’的科学精神,同时不拘一格,狠抓青年与杰出人才的引进、培养和国际高水平学术交流。

北航的人工智能研究由来已久

在北京航空航天官方网站中,人工智能研究院已经成为和微电子学院、软件学院等同级别的独立学院,不过关于人工智能研究院的官方网站尚在建设中,其中师资力量预计和招生规模等更详细的信息尚未公布。根据之前北航人工智能专业招生信息,其教师队伍或将以计算机学院教师为主体,部分师资会来自校内学科交叉单位以及来自国内领军企业和研究院所的研究人员。

北航成立人工智能研究院:整合全校AI资源,建设“新工科”典范

北航官网:学院列表
 

北航的人工智能相关学科的评估表现非常优秀,其中软件工程,计算机科学与技术等评级都是A类及A+类,在之前的人工智能专业招生中,北航计划招收30名本科生,以计算机学院为承载学院,联合数学与系统科学学院、经济管理学院、自动化科学与电气工程学院、大数据科学与脑机智能高精尖中心等单位实施专业交叉培养模式,注重全面提高学生的综合素质、拓展学生的专业面向,增强学生的社会适应力和竞争力。北航是作为人工智能研究重点高校之一,有着大量的创新成果,在理论研究领域李未院士、潘云鹤院士、高文院士、陈纯院士等一批院士在国内率先发起人工智能重大专项论证。在2019年科技部“新一代人工智能”重大项目公示中,北航2个项目入选,分别是《基于互联网的群智涌现机理与计算方法》和《面向群体行为的群智激发汇聚研究》,入选项目数量并列各高校第2。北航的人工智能核心课程体系设置具有两个显著特点。首先,数学比重高。除了数学分析、概率、代数外,人工智能专业还设置了最优化方法及智能计算中的数学。其次,知识面宽泛。必修课中包含了认知科学与控制科学相关课程。

教育部50家人工智能院所的小目标基本实现

2018年4月2日,教育部印发的《高等学校人工智能创新行动计划》明确提出,为了“加强人工智能领域人才培养”,“到2020年建立50家人工智能学院、研究院或交叉研究中心”。

据雷锋网 AI科技评论了解,截止2020年1月14为止,我国各高校和科研单位已经相继成立了近 50 所,基本完成《计划》的目标。

来源 | 雷锋网

]]>
//m.krtcgo.com/%e5%8c%97%e8%88%aa%e6%88%90%e7%ab%8b%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e7%a0%94%e7%a9%b6%e9%99%a2%ef%bc%9a%e6%95%b4%e5%90%88%e5%85%a8%e6%a0%a1ai%e8%b5%84%e6%ba%90%ef%bc%8c%e5%bb%ba%e8%ae%be/feed/ 0
权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显 //m.krtcgo.com/%e6%9d%83%e5%a8%81%e6%8e%92%e5%90%8d%ef%bc%8c%e5%85%a8%e7%90%83%e6%9c%80%e5%85%b7%e5%bd%b1%e5%93%8d%e5%8a%9b%e7%9a%842000%e5%90%8dai%e5%ad%a6%e8%80%85%e6%a6%9c%e5%8d%95%ef%bc%8c%e4%b8%ad%e5%9b%bdai/ //m.krtcgo.com/%e6%9d%83%e5%a8%81%e6%8e%92%e5%90%8d%ef%bc%8c%e5%85%a8%e7%90%83%e6%9c%80%e5%85%b7%e5%bd%b1%e5%93%8d%e5%8a%9b%e7%9a%842000%e5%90%8dai%e5%ad%a6%e8%80%85%e6%a6%9c%e5%8d%95%ef%bc%8c%e4%b8%ad%e5%9b%bdai/#respond Tue, 14 Jan 2020 06:29:26 +0000 https://new.openi.org.cn/%e6%9d%83%e5%a8%81%e6%8e%92%e5%90%8d%ef%bc%8c%e5%85%a8%e7%90%83%e6%9c%80%e5%85%b7%e5%bd%b1%e5%93%8d%e5%8a%9b%e7%9a%842000%e5%90%8dai%e5%ad%a6%e8%80%85%e6%a6%9c%e5%8d%95%ef%bc%8c%e4%b8%ad%e5%9b%bdai/ 对于CSRankings,人工智能领域的学者应该都并不陌生。 它以全球高校和研究机构在计算机领域的顶级学术会议上「发表论文数量」作为主要依据,对各个研究领域的学者和研究单位进行排名。由于近几年来中国学者在各大顶会中发表的论文数量迅速增长,我们可以时不时地看到 “**大学世界排名第**” 的新闻出现。这样的声音对于刚刚有起色的中国人工智能领域的研究来讲确实能够起到提振士气的作用。然而我们不得不承认的一点是,中国在AI学术研究上与美国相比还有巨大的差距。CSRankings单靠论文数量进行排名,在一定程度上已经不能真实地反映我国(各高校、研究单位)在人工智能领域的研究水平。

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

为了能够真实地反映人工智能领域学者的研究水平以及国家发展水平,1月11日,清华-中国工程院知识智能联合研究中心和清华大学人工智能研究院推出了「AI 2000人工智能全球 2000 位最具影响力学者榜单(AI 2000 Most Influential Scholar Award)」。

AI 2000的主要负责人、清华大学教授唐杰向雷锋网表示,从2017年起,他们便开始策划 AI 2000,榜单排名依托于唐杰教授所开发的学术搜索引擎Aminer,通过计入过去 10年内学者们在各大AI顶会和期刊中发表论文的引用率来进行评估。

不同于CSRankings以“论文数量”为唯一标准,AI 2000的评选主要以发表在核心顶会和期刊上论文的引用率为主,这也在一定程度上能够体现一个学者的“学术影响力”。

另一方面,AI 2000 的排名更加侧重于“创新”,而非“资深”。因此,AI 2000 只考虑过去 10年内发表的论文,而非学者整个学术生涯中的全部贡献。据唐杰教授表示,之所以选择“10年”,是因为“时间太短体现不出一项工作的影响力,而时间太长则无法反映学者当前的影响力”。

1、AI 2000 评选

AI 2000 的榜单涵盖了人工智能学科20个子领域。具体遴选方法为,每个子领域每年选出10名获奖者,未来10年共产生2000名;每年的遴选,将参考过去十年该领域最有影响力的会议和期刊发表论文的引用情况,排名前10的学者当选该领域当年【AI 2000最具影响力学者奖】,排名前100的其他学者获【AI 2000最具影响力学者提名奖】;每个领域的期刊和会议由技术委员会专家确定。

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

20个子领域分别为:经典AI(AAAI/IJCAI)、机器学习、计算机视觉、自然语言处理、机器人、知识工程、语音识别、数据挖掘、信息检索与推荐、数据库、人机交互、计算机图形、多媒体、可视化、安全与隐私、计算机网络、计算机系统、计算理论、芯片技术和物联网。

每个子领域所参考的顶级会议和期刊是根据《CCF 推荐国际学术期刊和会 议目录》和 ACM 计算分类系统相关子领域的 A 类期刊和会议作为数据的来源。然后征求相关专家和团体意见,补充新涌现的学科顶级期刊和会议。以下列表给 出了 20 个子领域所采用的顶级会议和期刊。

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

2、入榜情况

1)经典人工智能领域(AAAI/IJCAI)

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

经典AI的排名主要依据AAAI和IJCAI的论文引用数据。在这个领域中,香港科大杨强教授以入选论文总引用量3929排在经典人工智能领域第一名。前10名中,有7位华人学者,除了杨强教授外,还包括西北工业大学聂平飞教授(5)、清华大学孙茂松教授(6)、南京大学周志华教授(7)、清华大学刘知远副教授(8)、南洋理工大学Sinno Jialin Pan副教授(9)、匹兹堡大学Heng Huang教授(10)。这说明在AAAI和IJCAI这两个顶会中,华人学者呈现出绝对霸榜的态势。

2)机器学习领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
Ilya Sutskever教授以入选论文总引用量92071 排在机器学习领域第一名。而著名学者Geoffrey Hinton则以70250排名第二,Yoshua Bengio以55930排名第三。Ian Goodfellow 和Jeffrey Dean分别排名第 7名和第 10 名。在机器学习领域的前十名中,没有华人出现。

3)计算机视觉

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
计算视觉领域也是华人身影最多的一个领域,前10名中有6位华人。排在计算机视觉领域第一名的是著名青年学者何恺明,入选论文总引用量70524。随之其后的是孙剑、任少卿、Xiangyu Zhang,入选论文总引用量分别为64419、50104、47322。值得一提的是计算机视觉领域的知名学者李飞飞和汤晓鸥分别以入选论文总引用量31856和27521分别排名第8名和第10名。

4)自然语言处理领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
自然语言处理领域,Manning 以入选论文总引用量 37912,当之无愧的排在第一名。Yoshua Bengio和吴恩达(Andrew Y. Ng)分别排在第 4 和第 6 名。曾有一位学者警示说“NLP的研究仍然是白人占统治地位”,从排名中可以看出,此言不虚,在排名前 100的学者中,亚裔身影寥寥无几,国内NLP领域最著名的学者何晓东、周明、刘挺等人榜单排名也仅在30多名。

5)机器人领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
Freiburg大学的Wolfram Burgard以入选论文总引用量9597排名第一。机器人领域鲜少有亚裔身影,前10名(甚至前20名)都没有亚裔身影。可见我们需要提升的空间还很大。

6)知识工程领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
Christian Bizer排名第一。该领域前 100 名中无一华人。

7)语音识别领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
在语音识别领域,Geoffrey Hinton排名第一。著名华人学者俞栋、邓力分别排名第5名和第 8 名。

8)数据挖掘领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
数据挖掘领域著名的青年学者Jure Leskovec排名第一,而这一领域的巨擘韩家炜则排名第三。这也说明,AI 2000 的排名更加侧重“最新”的影响,而非“资深”。值得注意的是,数据挖掘领域也是华人最为擅长的领域之一,前 10 名中有七位都是华人学者,按先后顺序分别为韩家炜(3)、陈天奇(4)、陈卫(6)、俞士纶(7)、王亚军(8)、唐杰(9)、郑宇(10)。

9)信息检索与挖掘领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
在信息检索与挖掘领域,韩国和日本的学者居多。韩国学者Haewoon Kwak排名第一。Jure Leskovec在这一领域也排名第 5。华人学者蔡达成、Qiaozhu Mei和谢幸分别排名第10 、12和13名。

10)数据库领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
Michael J. Franklin 排名第一,其学生、华人学者Reynold Xin也位列第 9 名。在数据库领域,清华大学的李国良教授排名第 24 位。

11)人机交互领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

人机交互领域排名第一的是微软科学家Meredith Ringel Morris,这也是所有20个领域排名第一的唯一一位女性科学家。在这一领域中,很遗憾,也鲜少有华人身影。

12)计算机图形学领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
MIT的Frédo Durand排名第一。华人中排名最高的是西蒙弗雷泽大学大学的张皓教授(13),其次是浙江大学周昆教授(22)、清华大学胡事民教授(23)、微软亚研郭百宁博士(30)、微软亚研童欣博士(31)、北京大学陈宝权教授(32)。

13)多媒体领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
加州大学Trevor Darrell教授排名第一。在这一领域,著名青年学者、阿里副总裁贾杨清位列第二名(共有7位并列第二),依图CTO颜水成排名第 12名。值得注意的是,这一领域也是华人扎堆的领域,排名前 100名的学者中 70%的都是华人。

14)可视化领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
可视化领域的第一名是华盛顿大学的Jeffrey Heer教授。香港科大屈华民教授和清华大学刘世霞教授分别排名第 3 名和第 4 名。浙大巫英才教授、北大袁晓如研究员、浙大周昆教授也分别排名第 15、20、22名。

15)安全与隐私

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
加州伯克利分校David Wagner教授排名第一。在这一领域,毫无疑问仍然白人居多,尽管有少量华人身影,大多也是在美国任教,前 100名的榜单上没有国内学者身影。

16)计算机网络

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
斯坦福大学的Wireless Networks领域著名学者Sachin Katti排名第一。在这一领域,印度裔学者居多,华人中阿里巴巴的张明博士位居第 13 名。

17)计算机系统领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
Michael Acheson Isard排名第一,而谷歌的著名科学家Jeffrey Dean紧随其后排名第二。而华人学者Yuan Yu、陈建民、陈智峰分别排名第 6、 7、7(并列)名。

18)计算机理论领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
IBM 的Craig Gentry博士排名第一。这一领域鲜少有华人身影,在卡内基梅隆大学执教的彭泱助理教授排名21,清华大学朱泽园排名第38名。

19)芯片技术领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
这一领域,MIT的Anantha教授排名第一,紧随其后是著名华人学者丛京生,而清华大学教授汪玉、杨华中也分别排名第 9 名和第 10 名。值得注意的是刚刚入选ACM Fellow的阿里巴巴达摩院著名学者谢源排名第 34 名。

20)物联网领域

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
尽管物联网的应用在我国呼声很高,但排名前十的仅有一位新加坡华人学者Rui Zhang教授。排名第一的是Jeffrey Andrews教授。注:AI 2000排名榜数据会动态更新,以上数据采集截止到2020年1月11日12点。实时信息可查看网站 https://www.aminer.cn/ai2000,以网站为准。

3、数据分析

AI 2000 的发布报告也对入围的 2000名学者数据进行了简单分析,得出以下几点结论:

1)美国学者数量领跑全球

根据学者当前就职机构地理位置进行划分,2000名学者中有1128名来自美国,占比61.4%;尽管中国排名所有国家中的第二名,但也仅有173名,占比9.4%;其次是德国111名。

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

2)美国机构数量多实力强

统计各领域高引学者数 TOP10 的研究机构如下图所示,

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

位居首位的是谷歌公司,共 168 人入选榜单,也是唯一一家学者数过百的机构。从国家分布来看,只有清华大学为中国入选机构,其余均为美国研究机构,且美国机构学者总体人 数遥遥领先。此外,各领域榜首机构统计如下图所示。

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

谷歌在经典人工智能等9个领域的学者数量都位居榜首;麻省理工学院在机器人以及计算理论2个领域的学者数量位居榜首;微软在数据挖掘以及信息检索与推荐2个领域的学者数量位居榜首;其他领域的榜首分布在不同的机构中,其中,中国科学院在多媒体领域的学者数量最多。

3)男女比例差异明显

AI 2000报告也对所有上榜学者性别做出统计。男性在各领域中均占多数,共 1661人;女性学者稀少,共 176 人。其中,机器学习领域的男性学者比例最高,达 97%;人机交互领域的女性学者比例最高,但也只占该领域的 24%。

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

4)研究领域多点开花

AI 2000的学者中,有多位学者的研究方向涉及了多个领域,其中有2位学者出现在四个领域,他们分别是Yoshua Bengio以及Alex J. Smola;此外,有20位学者出现在三个领域,有117位学者出现在两个领域。

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

5)国家发展趋势

AI 2000 国家趋势分析如下图所示:
权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显

图中每条色带表示一个国家,其宽度表示该国家在当年的研究热度,与当年该国论文数量呈正相关,每一年份中按照其热度由高到低进行排序。通过国家趋势分析可以发现热度 TOP10 的国家分别是:United States(美国)、China(中国)、United Kingdom(英国)、Germany(德国)、 Canada(加拿大)、Japan(日本)、Australia(澳大利亚)、South Korea(韩国)、 Italy(意大利)、France(法国)。当前研究热度最高的国家是美国,从全局热度来看,美国早期就有着领先优势并一直保持着最高的热度,同时中国的研究热度紧随美国之后。

6)国家合作

美国的研究优势还不仅仅表现在研究人员多或者发表论文多,在国际合作上美国也表现出绝对优势。AI 2000根据论文中的单位信息,将作者映射到各个国家中,进而统计了各国之间的论文合作情况,合作论文数量 TOP10 的关系如下图所示:

权威排名,全球最具影响力的2000名AI学者榜单,中国AI研究不足凸显
在合作论文数量上,中美合作的论文数遥遥领先;在合作对象上,绝大多数的合作关系都包含美国,体现出了美国的突出地位。这也从侧面告诉我们,中国要想发展,应当加强国际合作。

参考资料:
[1] AI 2000人工智能全球最具影响力学者,https://www.aminer.cn/ai2000

[2] https://static.aminer.cn/misc/pdf/pdf/ai2000.pdf

来源 | 雷锋网

]]>
//m.krtcgo.com/%e6%9d%83%e5%a8%81%e6%8e%92%e5%90%8d%ef%bc%8c%e5%85%a8%e7%90%83%e6%9c%80%e5%85%b7%e5%bd%b1%e5%93%8d%e5%8a%9b%e7%9a%842000%e5%90%8dai%e5%ad%a6%e8%80%85%e6%a6%9c%e5%8d%95%ef%bc%8c%e4%b8%ad%e5%9b%bdai/feed/ 0
腾讯开源云服务器操作系统Tencent Linux //m.krtcgo.com/%e8%85%be%e8%ae%af%e5%bc%80%e6%ba%90%e4%ba%91%e6%9c%8d%e5%8a%a1%e5%99%a8%e6%93%8d%e4%bd%9c%e7%b3%bb%e7%bb%9ftencent-linux/ //m.krtcgo.com/%e8%85%be%e8%ae%af%e5%bc%80%e6%ba%90%e4%ba%91%e6%9c%8d%e5%8a%a1%e5%99%a8%e6%93%8d%e4%bd%9c%e7%b3%bb%e7%bb%9ftencent-linux/#respond Tue, 14 Jan 2020 06:24:51 +0000 https://new.openi.org.cn/%e8%85%be%e8%ae%af%e5%bc%80%e6%ba%90%e4%ba%91%e6%9c%8d%e5%8a%a1%e5%99%a8%e6%93%8d%e4%bd%9c%e7%b3%bb%e7%bb%9ftencent-linux/ 近日,腾讯云宣布开源其云服务器操作系统 TencentOS 内核(TencentOS Server Kernel,又称 Tencent Linux,简称 Tlinux)。

腾讯介绍,相比业内其它版本 Linux 发行版,Tencent Linux 在资源调度弹性、容器支持、系统性能及安全等层面极具竞争力,特别适合云环境。

TencentOS Kernel 是腾讯云物联网操作系统 TencentOS tiny 之后,TencentOS 家族对外开源的第二个项目。TencentOS 是腾讯云操作系统系列,由腾讯云架构平台部主力研发,覆盖数据中心、桌面系统、边缘设备和物联网终端等应用场景,提供云平台构建、接入和应用能力。

腾讯云操作系统团队表示:“将腾讯云服务器操作系统内核 TencentOS Kernel 开源,不仅可以与全球开发者共享腾讯云在服务器操作系统领域的技术和经验,还能够汲取全球服务器操作系统领域的优秀成果和创新理念,助力整体服务器操作系统生态的繁荣。”

具体看看该项目的特点:

专用资源调度方案,增强系统弹性伸缩能力

传统 Linux 系统中,公平性是资源调度算法的核心逻辑。公平的调度能最大程度提供系统通用性。然而,这种公平会造成资源有效利用率的低下,系统的弹性能力大大受限,业务无法按照需求进行资源的分配回收,包括资源的数量与资源的质量,如资源分配速度、抢占能力等。

Tencent Linux 研发了专用的资源调度算法,大幅提升整机的资源弹性。业务可以根据需求指定资源分配的数量和级别,从相同数量不同级别的资源获得的系统服务存在明显差别。

同时,Tencent Linux 研发的 CPU 弹性调度算法,在离在线业务混布场景下收益十分显著。在不影响在线业务质量的前提下,整机的 CPU 利用率最高提升 3 倍,部分业务场景下可将整机 CPU 利用率提升至 90%。

资源隔离增强

资源的安全隔离始终是容器虚拟化平台的核心问题,社区内核提供的隔离特性远远不能满足业务的需求,一些基本的系统状态信息、CPU 信息与磁盘状态信息等均未做隔离,部分场景下甚至直接导致业务不可用。

Tencent Linux 从业务需求出发,首先对必要的系统状态,比如 cpuinfo、stat、loadavg、meminfo、vmstat、diskstats 与 uptime 等进行隔离增强,保证容器中的应用能获得正确的系统状态信息。

更重要的是,系统还提供包括 NVME IO 隔离等特性,彻底解决 IO 控制组在多队列设备场景资源利用率低、不支持按比例隔离等问题,保证了不同场景下的 IO 隔离效果。

系统安全与性能优化

业界的内核热补丁技术主要是针对 X86 架构进行开发,缺少对 ARM64 等架构的支持。Tencent Linux 通过实现类 FMENTRY、FTRACE with REGS 功能,给 KPATCH 中增加 ARM64 支持等实现了针对 ARM64 架构的内核热补丁方案。

同时,Tencent Linux 提供进程 GDB 禁止功能,阻止跨进程获取内存、加载动态库等,保障业务进程的数据安全。

性能方面,Tencent Linux 针对计算、存储和网络子系统都进行了优化,例如 PAGE CACHE LIMIT 功能,限制 page cache 的使用率,尽量使系统剩余的内存能够满足业务的需求;系统还新增多个 sysctl/proc 控制接口、内核启动参数等优化用户体验。

来源 | 开源中国

]]>
//m.krtcgo.com/%e8%85%be%e8%ae%af%e5%bc%80%e6%ba%90%e4%ba%91%e6%9c%8d%e5%8a%a1%e5%99%a8%e6%93%8d%e4%bd%9c%e7%b3%bb%e7%bb%9ftencent-linux/feed/ 0
深度强化学习走入「死胡同」,继续死磕电子游戏还是另辟蹊径? //m.krtcgo.com/%e6%b7%b1%e5%ba%a6%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0%e8%b5%b0%e5%85%a5%e3%80%8c%e6%ad%bb%e8%83%a1%e5%90%8c%e3%80%8d%ef%bc%8c%e7%bb%a7%e7%bb%ad%e6%ad%bb%e7%a3%95%e7%94%b5%e5%ad%90%e6%b8%b8%e6%88%8f/ //m.krtcgo.com/%e6%b7%b1%e5%ba%a6%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0%e8%b5%b0%e5%85%a5%e3%80%8c%e6%ad%bb%e8%83%a1%e5%90%8c%e3%80%8d%ef%bc%8c%e7%bb%a7%e7%bb%ad%e6%ad%bb%e7%a3%95%e7%94%b5%e5%ad%90%e6%b8%b8%e6%88%8f/#respond Mon, 13 Jan 2020 03:27:30 +0000 https://new.openi.org.cn/%e6%b7%b1%e5%ba%a6%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0%e8%b5%b0%e5%85%a5%e3%80%8c%e6%ad%bb%e8%83%a1%e5%90%8c%e3%80%8d%ef%bc%8c%e7%bb%a7%e7%bb%ad%e6%ad%bb%e7%a3%95%e7%94%b5%e5%ad%90%e6%b8%b8%e6%88%8f/ 2019 年,深度强化学习可以算得上 AI 研究的 Top 关键词之一。

无论是 DeepMind 星际2 AI 「AlphaStar」血虐人类玩家,还是 OpenAI 最终因太过强大而被认为可能有风险所以不公开发布的语言模型 GPT-2,无疑都在过去一年中最轰动的 AI 大事件之列,也吸引了 AI 社区的越来越多的研究者投身深度强化学习研究之列。

然而,也有很多反对的声音认为深度强化学习现在的一系列成果,其实更像是一种虚假的「繁荣」。

本文作者朱仲光便是其中的一位。他指出,深度强化学习会给研究者们尤其是各位不明真相的大众带来「离通用人工智能越来越近」的错觉,而更为严重的是,深度强化学习会耗费掉研究者们本可以用来研究其他更重要的问题和更有前景的方向的时间和精力。

他的具体观点,我们下面来看:

一、2019 年都过去了,并没有离现实世界更进一步

随着 2019 年的结束,我想回顾一下人工智能所取得的进展。在这一年,AI 社区尤其将深度强化学习大肆宣扬为下一个朝着通用人工智能(AGI)前进的革命性的一步。

通用人工智能,顾名思义,就是指能够像人类一样以一种通用的方式学习万事万物的计算机算法。

近年来,研究者们针对深度强化学习开展了大量研究工作,现在也逐渐取得了一定进展。

围绕深度强化学习的想法和期望是,理论上,我们能轻而易举地训练一个能做任何事情的智能体,比如开车、叠衣服、玩电子游戏、打扫房间、玩魔方等等,并且所有智能体的学习过程都不需要人工干涉。其中一些实验已经取得一些成功,你可以教一个深度强化学习的智能体玩一些电子游戏和棋类游戏,但是一旦涉及现实世界,进入生产系统,这些实验都会以失败告终。

据我所知,2019 年都过去了,仍然没有出现任何能够使用深度强化学习技术的生产系统。

二、到底解决哪些问题,才有意义?

深度强化学习系统有许多问题,我并不打算详细讨论这些问题的细节,因为有很多博客文章已经讨论过这些问题。感兴趣的读者可参考下文:

  • 《Deep Reinforcement Learning Doesn't Work Yet》,https://www.alexirpan.com/2018/02/14/rl-hard.html

如果这些问题中有一部分得到改善或解决,例如找到更抽象的方式来表征神经网络内部的信息,我也不会太惊讶,但如果不能解决我所认为的核心问题,即有关手动设置奖励的问题,那所谓的「改善」或「解决」也就意义不大了。

在深度强化学习中,我认为大部分时间都花在了设计奖励函数来让智能体完成想让它做的事情。用更传统的机器学习术语来说,奖励函数就是目标函数,指的是算法利用奖励函数来了解系统是否朝着正确的方向运行,模型得到的奖励越多,它就「越好」。

比如教一支机械臂叠衣服,假如说你有一堆裤子,那么你如何编写奖励函数来让机械臂正确地叠这些裤子呢?当向另外一个人解释这一点时,听起来很简单,只是「把裤子叠成整齐的一堆」,但是计算机并不知道这些规则的含义。

对于每一个实验,你设计的奖励必须要让计算机在完全不知道自己实际正在做什么的情况下,可以自己衡量自己的运行过程。因此,你设计的奖励程序可以在机械臂碰到裤子时就开始给它奖励,之后再针对是否正确抓住了裤子以及移动了裤子,来给它更多奖励得分。

那如何基于机械臂在实际折叠裤子中的表现给予奖励?叠三次可以得分吗?没有将裤子叠皱又得多少分?

最终,你花了太多时间试图去引导智能体遵循正确的路径,以至于它基本上处在完全的监督之下。

理论上,你的确可以让一个人监督着整个训练过程,这个人可以为系统采取的每一个动作指定一个分数,但这种方式是不能泛化的。

这些深度强化学习系统需要基于数万到数百万次的迭代来试验动作的每一个变化,以找出实现最终目标的正确序列,个人很难监控计算机采取的所有步骤。研究者也正在积极探索,试图将这个范围缩小至有限次数的学习,但对我来说,这只是试图改进一些从根本上而言没有意义的东西。

在你试图训练机器人折叠裤子的过程中,你可能需要不断调整奖励函数,因为它可能会意外地撕破裤子、弄掉一些零部件、不把裤子翻出来就直接折叠,或者以看起来毫无意义的奇怪方式折叠裤子。这样的话,奖励的设计变成了一个试验性的过程,即通过反复的尝试和试错来确定什么是有效的奖励。有无数的报告记录了深度强化学习模型做出的各种意想不到的动作。

强化学习通常被划分为除监督机器学习和无监督机器学习以外的第三类,但在我看来,它其实就是监督学习。
当前的强化学习实现步骤是这样的:你开始训练模型,然后你看着它失败然后「死掉」,接着你花费大量的时间一次又一次调整奖励函数,直到你「有可能」得到一个理想的结果,但仅仅是「有可能」。

这个过程中有哪一步你没有给系统提供训练数据?事实上你把整个过程复杂化了,你仅仅是把答案以间接的方式提供给智能体,而这恰恰让一切变得更加困难。

如果计算机要从周围的环境中学习,那必须在一个 100% 无监督的环境里进行。

三、当公关大于实质进步,会带来哪些危害?

那么,为什么关于深度强化学习的炒作如此之多?

如果你站在一个抽象的角度来看待深度强化学习,你就会知道它被描述为一个随着时间的推移从其环境中学习的智能体。

这似乎是绝对正确的,而且确实「很像」是真的,所有生物都是从出生开始学习如何从其环境中生存和行动。

我们之所以知道这一点,是因为我们做了许多实验,经验告诉我们,如果我们改变和限制新生有机体的环境,它们会学到不同的东西,行为也会有所不同。

深度强化学习与诸如监督分类的传统机器学习方法有很大的不同,传统的机器学习是一个静态模型,它获取原始数据和答案并最终建立一个模型用于生产。在传统的深度强化学习框架中,系统犯错的部分就是信号的来源。这些人工智能体必须直接从它们自身和环境中学习,而不是从我们提供给它们的某种人工奖励函数中学习。

当 DeepMind 推出一个单一的不进行任何人为干涉就可以学会玩 Atari 电子游戏的深度强化学习智能体时,人们认为这种智能体可以泛化到其他领域的各种问题,甚至是通用人工智能。

但我们所了解到的是,有机体和人类所做的大多数事情,都无法建模成通过让智能体持续优化从而尽可能获得更多奖励的电子游戏。不要被「深度强化学习不需要人为干涉就能够在游戏中获胜」的新闻所愚弄!设计奖励这一操作仍然存在,并且在 40 年前,当电子游戏制造商雇佣整支队伍来制作这些游戏时,就已存在这种操作。

很多人都误认为深度强化学习是实现通用人工智能的下一个创举,甚至谷歌也「过分热情」地花了 5 亿多美元收购 DeepMind,希望把人工智能提升到一个新的水平。与此同时,AI 社区似乎也把深度强化学习当成了圣杯,因为它是在某种程度上与我们所处的世界最接近的机器学习形式,尽管实际上还相差甚远。

我们最终实现的不过是一些「小把戏」,这些智能体也不过是可以玩各种各样的电子游戏、棋类游戏的小 AI 玩具。
从更传统的机器学习方法向深度学习转变的主要好处是,不再需要手动的工程设计。理论上,你可以给模型提供一堆数据,运行优化算法,它不需要你手动编写特征提取代码也能进行学习。因此,深度学习已经被应用到部分强化学习中,主要体现在智能体以像素的形式接收感知数据的部分,但是仍然需要研究者花大部分时间来手动设计程序。

这在我看来,深度学习并没有发挥什么作用!我甚至没有具体讨论其他深度强化学习问题,比如如果你需要稍微调整一下目标,那么你就要准备好重新训练整个系统,以及环境中的细微变化通常也会导致整个系统彻底失败,等等。通往通用人工智能的路还很长……

现在DeepMind 和 OpenAI 这样顶尖的机器学习研究机构,仍然在深度强化学习研究上投入主要的时间和资源。他们不断地用发布公关新闻轰炸互联网,展示他们正在取得的巨大进步:深度强化学习系统可以下围棋,玩 StarCraft、Dota 2,玩魔方等等。

我很困惑,为什么他们继续花那么多时间来开发有明确的定义规则和得分的系统、能在游戏中获胜的深度强化学习系统?

我相信现在每个人都明白,如果有足够多的时间、金钱和计算机来机械地训练每一个可能的动作,深度强化学习系统几乎可以在任何游戏中获胜。我认为他们大部分的策略仅仅是用一些「小把戏」来不断制造公关效应,以展示最新的深度强化学习系统如何在下一个最佳游戏中大获全胜,这样他们就可以继续从那些不太「懂行」的人那里获得投资,比如微软最近给 OpenAI 的  投了10 亿美元,谷歌则继续作为 DeepMind 的「存钱罐」给其投入资金。

DeepMind 最近,也就是在被谷歌收购 5 年后的一个成功案例是,他们训练了一个深度强化学习的智能体来下围棋、国际象棋、将棋和玩 Atari 游戏。是的,更多的电子游戏!!!

我的本意并不是抨击他们,我真的很高兴他们仍然在为实现通用人工智能贡献力量。但问题是,他们制造了很多错误的认知,并最终导致大量的人力物力浪费在「死胡同」上。

首先,他们发布的所有公关言论,比如「我们的文本生成模型(GPT-2)太危险了,不能发布」,使得普通大众认为我们离通用人工智能更近了,然而 AI 行业中的每个人都明白并没有更近。

其次也是更重要的是,他们错误地引导着人工智能研究者们花更多的时间在深度强化学习上。许多研究人员和黑客从这些研究深度学习的公司那里看到了一波又一波为深度强化学习「叫好」的 PR 新闻,当他们原本可以将精力集中在更大、更根本的问题上时,他们却花费了无数的时间去破解那些相同的问题。

四、要实现通用人工智能,真正要做的是什么?

如果人工智能和通用人工智能要向前发展,我认为是时候停止让深度强化学习系统玩电子游戏,转而集中精力解决更棘手的问题了。

所幸 DeepMind 和 OpenAI 的确有花时间解决其他问题,但正如我所说,深度强化学习似乎仍然是他们的主要关注点。

目前的深度强化学习系统似乎可以很好地契合已经有基础训练的系统。迁移学习中的智能体已经对其环境和自身有了基本的了解。我们不妨观察一个人类婴儿的学习历程:从出生开始,她(他)首先开始学习观察形状和颜色,移动手指,触摸物体,控制自己的身体,辨别声音,学习有关重力、物理、坠落、蠕动、弹跳的知识,学习物体恒常性等。每一个人或有机体都会在不同程度上经历这些学习过程。

通常在婴儿掌握了大量的知识之后,即当她(他)可以走路、抓握物体、自己上厕所、进行基本的交流等等之后,接下来就是更为正式的训练,比如家长会送孩子去学校,孩子在学校中会经历一个结构性更强的学习过程:学校通过家庭作业、评分以及测验训练孩子从课程中学习知识。

当前的深度强化学习系统似乎原本可以很好地适用于这种形式化的训练,在这种训练中,当智能体对环境有了基本的了解之后,系统可以清晰地、最大程度自动化地给所期待达成的目标指定分数。比方说如果孩子不能背诵 ABC 这三个字母,记为不及格,但如果他们能背诵整个字母表则记为及格。

当前深度强化学习技术正在本末倒置,我们正试图训练计算机从零开始完成一些复杂的任务,这种训练有时可能会有效,但由于这些模型是针对特定的任务而不是泛化能力而训练的,它们对自己的环境没有泛化的了解,最终导致系统过于脆弱,效果也不是很好。

只要奖励函数的问题没有被解决,再多新的学习算法,如BP 算法、DQN、PPO、DDPG、TRPO 都无法真正解决深度强化学习的问题。

我确信我们会有一些进步,也许会在 Starcraft 中赢得更多的分数,但是如果没有一个根本性的架构转变,来实现智能体在无监督的情况下从环境中进行学习,那么这些所谓的进步对于我们实现通用人工智能这一伟大梦想,也就没有太多的意义。

我自己的假设是,针对学习体的奖励函数实际上是由维持稳态和将「意外」最小化的动力所驱动的。

稳态是生物维持生存所需的稳定条件的过程。任何有机体都要生存,都必须保持其身体与外界环境分离。生物饥饿的时候要进食,疲倦的时候要睡觉,口渴的时候要喝水,受伤的时候要休息,被猎杀的时候要逃离,炎热的时候要让自己凉快一点等等。有机体在环境中行动时,这些与生俱来的原始信号指导着它们该做什么和该关注什么。如果它们不能胜任这些事情,则会导致有机体内失去平衡,最终导致过早死亡。

当生物在四处游荡时,它会建构自己的感知运动交互作用模型以及与周围世界交互作用的环境,该模型开始把各种事件汇聚到一起:天黑的时候应该比较冷;当我打嗝,我应该听到打嗝的声音;当我向左移动,我应该看到视野在 X 轴上变化;当一只动物走在我前面,它应该继续向前移动;当我的手指在杯子上扫过,我应该感受到光滑的表面;当我通过声带发出声音,我应该能在我的耳朵里听到相应的声音等等。

如果有什么意外的事情发生,有什么东西偏离了它的模型,那么该模型会重新调整它的预期,直到得到它所预期的结果,这也可能会导致更多的移动。如果最终不能得到预期的结果,那么真正的「意外」就会出现,这些神经元就被标记为「需要更新模型」,在这种情况下,重新学习和重新优化可能会实时发生,也可能是在机体处于睡眠状态时发生。

优化过程会在智能体的内部环境模型和实际环境之间进行,并持续优化以使意外最小化。神经科学和哲学已经在很长一段时间里对这些思想展开过讨论,比如 Andy Clark 提出的预测处理的思想以及 Karl Friston 提出的自由能量原理(Free Energy Principle)。

据我所知,这些思想还没有成功地应用于机器学习环境中。我认为这其中有很多技术问题:如何在计算机中模拟稳态状态,如何存储模型的内部表征,智能体的感官和环境之间的低分辨率以及低保真环境等等。

我并非意在采用一个煽动性的标题来写这篇文章,但我也无法以一种更恰当的方式来向人们说明「当前的深度强化学习架构从根本上而言就是错的」这一问题。

我们不需要更多可以玩多种电子游戏的深度强化学习模型,我们需要实现的模型是这样的:它可以在完全无监督的环境中学习智能体和环境之间的泛化表征。这种新的架构可以被称为「深度强化学习 3.0」、「积极推理」、「预测处理」或其他完全不同的东西,但是请不要再在这个「死胡同」上浪费时间了。

深度强化学习的研究已经取得了一些很有成效且有趣的成果,但是时候继续前进了。谁能找到方法来构建一个可以在无监督情况下从环境中学习的泛化的人工智能系统,谁就会对 AI 领域做出巨大的贡献并推动这个领域继续向前发展。

来源 | 雷锋网

]]>
//m.krtcgo.com/%e6%b7%b1%e5%ba%a6%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0%e8%b5%b0%e5%85%a5%e3%80%8c%e6%ad%bb%e8%83%a1%e5%90%8c%e3%80%8d%ef%bc%8c%e7%bb%a7%e7%bb%ad%e6%ad%bb%e7%a3%95%e7%94%b5%e5%ad%90%e6%b8%b8%e6%88%8f/feed/ 0
微软北大联合提出换脸 AI 和脸部伪造检测器,演绎现实版「矛与盾」? //m.krtcgo.com/%e5%be%ae%e8%bd%af%e5%8c%97%e5%a4%a7%e8%81%94%e5%90%88%e6%8f%90%e5%87%ba%e6%8d%a2%e8%84%b8-ai-%e5%92%8c%e8%84%b8%e9%83%a8%e4%bc%aa%e9%80%a0%e6%a3%80%e6%b5%8b%e5%99%a8%ef%bc%8c%e6%bc%94%e7%bb%8e/ //m.krtcgo.com/%e5%be%ae%e8%bd%af%e5%8c%97%e5%a4%a7%e8%81%94%e5%90%88%e6%8f%90%e5%87%ba%e6%8d%a2%e8%84%b8-ai-%e5%92%8c%e8%84%b8%e9%83%a8%e4%bc%aa%e9%80%a0%e6%a3%80%e6%b5%8b%e5%99%a8%ef%bc%8c%e6%bc%94%e7%bb%8e/#respond Wed, 08 Jan 2020 06:29:39 +0000 https://new.openi.org.cn/%e5%be%ae%e8%bd%af%e5%8c%97%e5%a4%a7%e8%81%94%e5%90%88%e6%8f%90%e5%87%ba%e6%8d%a2%e8%84%b8-ai-%e5%92%8c%e8%84%b8%e9%83%a8%e4%bc%aa%e9%80%a0%e6%a3%80%e6%b5%8b%e5%99%a8%ef%bc%8c%e6%bc%94%e7%bb%8e/ 近日,微软研究院与北京大学的研究小组共同提出了一种全新的 AI 换脸框架 FaceShifter,以及一种检测伪造人脸图像的方法 FaceX-Ray。前者可以极大提高换脸的高保真度,而后者则用于检测出复杂伪造人脸图像。

一个致力于造假,一个专注于打假;光是听起来,就不禁让人联想到「矛」与「盾」的故事。那到底哪个更胜一筹呢?VB 发布了的相关内容介绍了这两个成果,雷锋网 AI 开发者将其整理及编译如下。

微软北大联合提出换脸 AI 和脸部伪造检测器,演绎现实版「矛与盾」? 

人脸技术研究背景

目前,最先进的机器学习算法不仅可以完成对地点或物体的图像改变与生成,以 Deepfake 为代表的 AI 换脸技术甚至已经可以达到以假乱真的换脸效果;但由于换脸技术的滥用可能会为社会带来一系列恶劣影响,研究人员也在不断探索该技术的原理,并希望能够解决这一难题。

就在最近,这一技术又有了新的进展。微软研究院和北京大学的研究小组发表的两篇学术论文中,他们分别提出了一种用于生成高保真和遮挡感知的人脸交换框架——FaceShifter,以及一种用于检测伪造人脸图像的方法——FaceX-Ray。

微软北大联合提出换脸 AI 和脸部伪造检测器,演绎现实版「矛与盾」?

与现有的方法相比,微软研究的面容转换
 

据相关研究人员表示,与多个现行基线方法相比,这两种方法都能在不牺牲性能的情况下取得更好的效果,而且它们所需的数据比以前的方法少得多。

无训练换脸——FaceShifter

从相关资料可以看到,FaceShifter 能够将目标图像中的人替换为源图像中的另一个人的同时,保留其头部姿势、面部表情、灯光、颜色、强度、背景和其他属性特征。

虽然像 Reflect 和 FaceSwap 这样的应用程序声称可以相当准确地做到这一点,但是微软论文的合著者表示 FaceShifter 对姿态和视角的变化则敏感度更高。

微软北大联合提出换脸 AI 和脸部伪造检测器,演绎现实版「矛与盾」? 

取源图像中的脸来替换目标图像中的面,换脸结果显示在右边
 

图片来源:FaceShifter论文(https://arxiv.org/pdf/1912.13457.pdf)

FaceShifter 通过使用生成性对抗网络(GAN)来提高换脸的保真度,它主要由两部分架构组成。第一部分主要利用利用自适应注意力非正规化(AAD)层的新生成器整合人脸合成图片的特征和属性,该层可以自适应地学习整合面部属性的位置;第二部分则重点解决面部遮挡问题,这部分则包括了一个新的启发式错误确认细化网络(HEAR-Net),可利用重建图像与其输入之间的差异来识别遮挡。

微软北大联合提出换脸 AI 和脸部伪造检测器,演绎现实版「矛与盾」? 

更多来自 FaceShifter 的样本

研究小组称,「该框架在生成任意真实图像相对的换脸图像时,无需特定的训练,都显示出了优越的性能。大量实验表明,该框架明显优于以前的人脸交换方法。」

可以看到,在一项定性测试中,FaceShifter 保留了人脸形状,并自动适应换脸图像的光线和图像分辨率。此外,即使是从互联网上抓取的「狂野面孔」,该框架也能够在不依赖人工注释数据的情况下恢复异常区域——包括眼镜、阴影和反射效果,以及其它不常见的遮挡。

灰度打假 FaceX-Ray

而与 FaceShifter 相比,FaceX-Ray 则恰好是伪造头像的克星。正如研究人员在相应的论文中所指出的那样,我们确实需要这样的工具来防止伪造图像被滥用的情况。

2019 年 6 月曾有份报告披露,一名间谍利用人工智能生成的个人资料图片愚弄 LinkedIn 中的联系人;而就在去年 12 月,Facebook 发现数百个账户上面都有使用人工智能合成的假面像来作为个人资料照片。

微软北大联合提出换脸 AI 和脸部伪造检测器,演绎现实版「矛与盾」? 

各种面部操作方法的视觉结果,包括自监督生成的混合图像
 

谈回 Face X-Ray 检测技术,它与现有方法不同,它不需要事先知道操作方法或人工监督;相反的是它会生成灰度图像,显示给定的输入图像是否可以分解为来自不同来源的两个图像的混合。

研究人员表示这一想法是可行的,因为大多数操作换脸的方法,都会有「将已改变的面部混合到现有背景图像中」这一步骤。但每幅图像都有自己独特的标记,这些标记是从硬件(如传感器和镜头)或软件组件(如压缩和合成算法)引入的,并且这些标记往往在整个图像中也以类似的方式呈现。

微软北大联合提出换脸 AI 和脸部伪造检测器,演绎现实版「矛与盾」? 

生成训练样本概述

因此,Face X-Ray 不需要依赖于与特定人脸操作技术相关联的伪影知识,并且支持它的算法可以在不使用任何方法生成假图像的情况下进行训练。

在一系列实验中,研究人员在 FaceForensics++(一个包含 1000 多个用四种最先进的人脸置换方法生成的原始剪辑的大型视频语料库),以及另一个包含由真实图像构建的混合图像的训练数据集上训练了 Face X-Ray。

他们评估了 FaceX-Ray 使用四个数据集进行概括的能力,其中包括:

  • 上述 FaceForensics++语料库的一个子集;
  • 谷歌发布的数千个 deepfake 影视集合,deepfake 检测挑战赛的图像;
  • Celeb DF,一个包含 408 个数据集真实视频的语料库和 795 个减少了视觉伪影的合成视频。

结果表明,Face X-Ray 能有效地识别出未被发现的伪造图像,并能可靠地预测融合区域。研究人员指出,该方法依赖于混合步骤的存在,因此它可能不适用于全合成图像,并且它可以无法成功检测出对抗性样本的真伪。但撇开这一点,这也算是朝通用化面部伪造图像检测工具迈出的有希望的一步。

原文地址:
https://venturebeat.com/2020/01/06/microsoft-researchers-propose-face-swapping-ai-and-face-forgery-detector/ 
FaceShifter 论文地址:
https://arxiv.org/pdf/1912.13457.pdf 
FaceX-Ray 论文地址:

https://arxiv.org/pdf/1912.13458.pdf 

来源 | 雷锋网
作者 | 杨鲤萍

]]>
//m.krtcgo.com/%e5%be%ae%e8%bd%af%e5%8c%97%e5%a4%a7%e8%81%94%e5%90%88%e6%8f%90%e5%87%ba%e6%8d%a2%e8%84%b8-ai-%e5%92%8c%e8%84%b8%e9%83%a8%e4%bc%aa%e9%80%a0%e6%a3%80%e6%b5%8b%e5%99%a8%ef%bc%8c%e6%bc%94%e7%bb%8e/feed/ 0
从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法 //m.krtcgo.com/%e4%bb%8e-alphago-%e5%88%b0%e5%85%b7%e6%9c%89%e4%ba%ba%e7%b1%bb%e6%99%ba%e6%85%a7%e7%9a%84-ai-%e7%a9%b6%e7%ab%9f%e6%9c%89%e5%a4%9a%e8%bf%9c%ef%bc%9ffrancois-chollet-%e6%9c%89%e4%ba%86%e4%b8%80/ //m.krtcgo.com/%e4%bb%8e-alphago-%e5%88%b0%e5%85%b7%e6%9c%89%e4%ba%ba%e7%b1%bb%e6%99%ba%e6%85%a7%e7%9a%84-ai-%e7%a9%b6%e7%ab%9f%e6%9c%89%e5%a4%9a%e8%bf%9c%ef%bc%9ffrancois-chollet-%e6%9c%89%e4%ba%86%e4%b8%80/#respond Tue, 07 Jan 2020 02:55:45 +0000 https://new.openi.org.cn/%e4%bb%8e-alphago-%e5%88%b0%e5%85%b7%e6%9c%89%e4%ba%ba%e7%b1%bb%e6%99%ba%e6%85%a7%e7%9a%84-ai-%e7%a9%b6%e7%ab%9f%e6%9c%89%e5%a4%9a%e8%bf%9c%ef%bc%9ffrancois-chollet-%e6%9c%89%e4%ba%86%e4%b8%80/
从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法
图片来自Alex Castro / The Verge
 
测量人工智能的「智慧」是计算机科学领域中最棘手但最重要的问题之一。如果你不明白你今天制造的机器是否比昨天更聪明,那你怎么知道你在进步?

乍一看,这似乎不是问题。其中一个回答是:「显然人工智能越来越聪明」。仅从所有涌入这一领域的资金和人才就可以看出来。也可以回顾一下 AI 领域实现的一系列里程碑,例如 AI 在围棋上打败人类,以及像图像识别等在十年前根本不可能落地的应用现在开始变得无处不在。我们怎么能说 AI 这个领域不是在进步?

另一个回答是,这些成就并不是衡量「智慧」的良好标准。AI在国际象棋和围棋中击败人类确实令人印象深刻,但是如果在解决一般的问题时,一个正在蹒跚学步的孩子甚至一只老鼠都能让最聪明的计算机「不知所措」,AI 又有什么用?

这是人工智能研究人员、谷歌软件工程师、机器学习界知名人士François Chollet 对当下的 AI 做出的评论。Chollet 是 Keras 库的作者,而 Keras 则是一个被广泛应用的开发神经网络的程序,是当代人工智能的脊柱。他还编写了大量关于机器学习的教科书,并在 Twitter 开设了专栏分享自己对于 AI 领域的观点,广受欢迎。

在最近一篇题为《测量智慧》的论文中,Chollet 还提出了一个论点,即人工智能世界需要重新定义什么是「智慧」以及什么不是「智慧」。Chollet 指出,如果研究人员想在通用人工智能方面取得进展,他们需要回顾过去流行的基准,如电子游戏和棋类游戏,并开始思考让人类变得聪明的技能,比如我们所具有的概括和适应的能力。

在接受 The Verge 杂志的电子邮件采访时,Chollet 阐述了他对这个问题的看法,谈到了他为什么认为人工智能目前的成就被「歪曲了」,以及我们将来如何衡量「智慧」,为什么关于超级人工智能的恐怖故事(如 Elon Musk 和其他人所说)会毫无根据地把控住公众的想象力。

从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法

FrançoisChollet是AI框架Keras的发明者,也是Google的软件工程师

为了将Chollet 的观点表述得更为清晰,本文对采访做了一定编辑。

问:在您的论文中,您描述了塑造人工智能领域的两个不同的「智慧」概念:一种「智慧」表现为能够胜任广泛的任务的能力,另一种则优先考虑适应能力和泛化能力,即人工智能应对新挑战的能力。现在哪个框架的影响力更大,带来了什么样的影响?

Chollet:该领域发展的头 30 年里,最有影响力的观点是前者:「智慧」是一套静态的程序和显性的知识库。现在,观点则向另一个相反的方向偏倚:AI 社区定义「智慧」的主流方法还是一张「白纸」,或者用一个更确切的比喻来说,是「新初始化的深层神经网络」。然而不幸的是,这是一个基本上没有受过挑战、甚至几乎没有经过检验的框架。这些问题有着很长的学术历史(确切地说是几十年的历史),我认为即便是现在,AI 领域对「智慧」也没有太多认识,也许是因为现在在做深度学习的人,大多数都是在 2016 年之后才加入这个领域的。

这种知识垄断现象从来都不是什么好事,尤其是在回答这些理解尚不足的科学问题时。它对于领域内的研究者提出一系列的问题带来了很大的限制,也限制了人们追求的思想空间。我认为现在研究者们逐渐开始意识到了这个现象。

问:在您的论文中,您还提出,人工智能需要更好地定义「智慧」才能进步。您提到,现在研究人员专注于在静态测试(例如在电子游戏和棋类游戏中获胜)中对性能进行基准测试。为什么您觉得这种测量「智慧」的方式是不足够的呢?

Chollet:是这样的,一旦你选择了一个衡量标准,你将会为了实现这一标准而采取任何可以采用的捷径。例如,如果你把下棋作为衡量「智慧」的标准(我们从 20 世纪 70 年代到 90 年代都是这么做的),你最终会得到一个下棋的系统,仅此而已。而根本没有理由去思考这个系统到底对其他事情有什么益处。你最终让系统实现了树状搜索和极小化极大算法,但这并不能教会系统任何关于人类智能的知识。如今,研究者们在 Dota 或 StarCraft 等电子游戏中追求高超技能,将此作为实现了通用「智慧」的典型代表,则陷入了完全相同的智力陷阱。

这也许并不明显,因为在人类看来,技能和「智慧」是密切相关的。人类的大脑可以利用它的通用「智慧」来获得完成特定任务的技能。一个真正擅长象棋的人可以被认为是相当聪明的,因为,我们隐约知道他们必须用自己的通用「智慧」来从零开始学习下棋。他们不是为下棋而生的。所以我们知道,他们可以把这种通用「智慧」指向许多其他任务上,并学会同样很高效地完成这些任务。这就是所谓的「通用性」。

但是机器没有这样的限制,机器完全可以为下棋而设计。因此,我们对人类所做的推论——「会下棋,因此一定很聪明」,就失效了,我们的拟人假设不再适用。通用「智慧」可以产生完成特定任务的技能,但绝对不能反过来说,完成特定任务的技能可以产生通用「智慧」。所以对于机器而言,技能和智慧是完全正交的。你可以获得针对任何特定任务的特定技能,只要你可以用无限数据作为这种任务的样例(或者花费无限的工程资源),但这仍然不能让机器更接近通用「智慧」。

我最主要的观点是,在任何一项任务中获得超高技能,都不能作为「智慧」的标志。除非这项任务实际上是一项元任务,它涉及让机器在一系列以前未知的问题上获得新技能。这正是我所提倡的「智慧」的基准。

从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法

人工智能实验室的研究人员在《星际争霸2》中观察他们的人工智能AlphaStar如何对付人类玩家。图片来自DeepMind

问:如果当前的这些基准无法帮助我们发展拥有更通用、更灵活的「智慧」的人工智能,那么为什么它们如此受欢迎?

Chollet:毫无疑问,AI在特定的知名电子游戏中击败人类冠军的成就很大程度上是由报道这些项目的媒体所推动的。如果公众对这些浮躁的,而且很容易被误解为通往超人类通用人工智能的重要进步的「里程碑」不感兴趣,那么研究人员将做些别的事情。

我觉得这有点可悲,因为研究应该回答开放的科学问题,而不是产生公关效应。如果我开始用深度学习以超人类的水平「解决」《魔兽争霸 3》,你可以肯定的是,只要我有足够的工程人才和计算能力(对于这样的任务来说,这大约需要几千万美元),我就一定能达到目的。然而一旦我做到了,我能学到关于「智慧」和泛化能力的什么东西吗?坦白说,什么也学不到。充其量,我会掌握有关扩展深度学习的工程知识。所以,我并不真正将其视为科学研究,因为它没有教给我们任何我们不知道的东西,也没有回答任何开放性的问题。如果问题是,「我们能在超人类的水平上玩 X 游戏吗?」答案是肯定的:「可以,只要你能够生成足够密集的训练环境的样本,并将其输入到一个有效表达的深度学习模型中」,早在前一段时间,我们就已经知道了这一点。(事实上,在 AIs 达到 DOTA2 和 StarCraft II 的冠军级别之前的一段时间,我就表达过这样的观点。)

问:您认为这些项目的实际成果是什么?这些项目的结果在多大程度上被误解或歪曲

Chollet:我看到的一个明显错误的陈述是,这些高技能的游戏系统代表着「可以处理现实世界的复杂性和不确定性的人工智能系统的真正进步」。(正如 OpenAI 在给用来玩 DOTO2 的程序 OpenAI 5 发布的新闻稿中所宣称的那样)。它们并不能代表人工智能的进步。如果它们真的可以,这将是一个非常有价值的研究领域,但事实并非如此。以 OpenAI 5 为例,它最初不能处理 Dota2 的复杂性,因为它是用 16 个字符来训练的,不能泛化到整个游戏中,整个游戏有超过 100 个字符。它经过了 45,000 年的游戏训练,然后再一次注意到对于训练数据的需求如何随着任务的复杂度增长。而即便经过这么长时间的训练,得到的模型依旧被证明是非常脆弱的:在这种 AI 对外发布能供人类与之对战后,即便是非冠军的人类玩家,也能够找到能十拿九稳地打败它的策略。

如果你希望有一天能够处理现实世界的复杂性和不确定性,你就必须开始问一些问题,比如什么是泛化?如何衡量和最大化学习系统的泛化能力?这与向一个大的神经网络投入 10 倍的数据并进行计算完全是正交的,这样它的技能就能提高一点点。

问:那么,对于这个领域来说,什么是更好的测量「智慧」的标准呢?

Chollet:简而言之,我们需要停止评估针对事先已知的任务的技能(比如象棋、Dota 或 StarCraft),而是开始评估「技能获得能力」。这是指只使用系统事先不知道的新任务,来测量系统开始执行任务的先验知识并测量系统的样本效率(即完成任务所需的数据量)。系统需要的信息(先前的知识和经验)越少,它就越聪明,而今天的人工智能系统真的一点也不聪明。

此外,我认为我们对「智慧」的衡量应该使「似人性」更加明确,因为可能存在不同类型的「智慧」,而我们实际上就是在隐含地谈论类人的「智慧」,这包括试图理解人类与生俱来的先验知识。人类的学习是极其高效的,他们只需要很少的经验就可以获得新技能,但他们并不是从头开始学习:除了一生积累的技能和知识外,他们还利用与生俱来的先验知识来学习。

我最近的论文提出了一个新的基准数据集 ARC(「Abstraction and Reasoning Corpus」,意为「抽象和推理语料库」),它看起来很像智商测试。ARC 是一组推理任务,其中每个任务都通过一小段演示(通常是三个演示)进行解释,你应该从这几个演示中学习如何完成任务。ARC 采取的立场是,你的系统所评估的每一项任务都应该是全新的,而且应该只涉及符合人类先天知识的知识。例如,它不能以语言作为特征。目前,ARC 完全可以在没有任何口头解释或先前训练的前提下由人类完成,但它完全不能被任何我们已经尝试过的人工智能技术所解决。这是一个巨大且明显的信号,表明了有一些事情正在发生,也表明我们需要新的想法。

从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法

Chollet 为他的新 ARC 基准数据集提出的「智慧」测试的一个例子。图片来自 François Chollet

问:您认为只通过在这些问题上投入更多的计算能力,人工智能世界能够继续进步吗?有人认为,从发展历史上看,这是提高绩效的最成功的方法,而其他人则认为,如果我们沿着这条路走下去,我们很快就会看到收益递减。

Chollet:如果你在做一个特定的任务,这种观点是绝对正确的:在垂直任务上投入更多的训练数据和计算能力将提高针对该任务的能力。然而在帮助你理解如何实现人工智能的通用性方面,它会让你一无所获。

如果你有一个足够大的深度学习模型,并且针对一个特定任务在跨输入输出空间的密集采样上训练它,那么它将学习解决这个任务,不管是什么——不论是 Dota 还是 StarCraft,凡是你能想到的。这是非常有价值的,并且在机器感知问题中有着几乎无限的应用。这里唯一的问题是,你需要的数据量是一个任务复杂度的组合函数,所以即使是稍微复杂的任务,计算也会变得非常昂贵。

以自动驾驶汽车为例。数以百万计的训练环境也不足以让一个端到端的深度学习模型学会安全驾驶汽车。首先,这就是L5 自动驾驶还没有完全实现的原因。其次,最先进的自动驾驶系统主要是符号模型,它们使用深度学习将这些人工设计的模型与传感器数据连接起来。所以如果深度学习可以泛化的话,我们在 2016 年就应该拥有了 L5 自动驾驶,并且它采用一种大型神经网络的形式。

从 AlphaGo 到具有人类智慧的 AI 究竟有多远?François Chollet 有了一些新想法

自动驾驶汽车的发展比许多人预测的要慢得多。图片来自Vjeran Pavic / The Verge

问:最后,考虑到您所说的当前人工智能系统的限制,似乎有必要问一下对于「一个非常强大的 AI 在未来将会给人类带来毁灭性的伤害」的「超级智能恐惧论」,您认为这种担忧合理吗?

Chollet:不,我认为关于超级智能的论述是没有根据的。我们从未创造过一个自主的智能系统,也绝对没有迹象表明我们能够在不远的将来创造一个。(这也并不是当前人工智能的发展方向。)而且如果我们真的在遥远的未来创造了一个这样的系统,我们也完全没有办法推测它会具备什么特征。用一个比喻来说,这有点像在 1600 年问:「弹道学进展很快!所以,如果我们有一门可以摧毁整个城市的大炮会怎么样呢,我们如何确保它只会杀掉坏人?」这是一个相当畸形的问题,在对我们所讨论的系统尚缺乏任何知识的情况下进行辩论,这个问题充其量只是一个哲学争论。

这种「超级智能恐惧论」有一个很大的问题是它们掩盖了今天人工智能有可能变得相当危险这一事实。并非AI 系统实现了超级智能才能证实 AI 应用潜藏着危险。我此前写过关于使用人工智能来实现算法宣传系统的文章,也有其他人写过算法偏见、在武器系统中使用人工智能,或者把人工智能当作极权主义的控制工具的文章。

有一个关于 1453 年君士坦丁堡被围困的故事,讲的是当这座城市与奥斯曼军队作战时,它的学者和统治者却在争论天使的性别。这个故事告诉我们,我们投入越多的精力和注意力讨论天使的性别,或者假设超级人工智能的价值取向时,我们处理人工智能技术当下存在的现实而紧迫的问题的精力和注意力就越少。现在,有一个出名的技术领导者喜欢把超级人工智能描绘成对人类生存的威胁。好吧,虽然这些想法能够极大地吸引媒体的注意,但却并没有讨论在我们的道路上那些部署不够准确的、会导致交通事故和生命损失的自动驾驶系统所引发的道德问题。

问:如果一个人接受这些评论,即目前这些恐惧还没有技术基础作为支撑,那么您认为为什么超级智能的论述如此受欢迎呢?

Chollet:最后我只能说,这是一个好故事,而人们往往会被好故事所吸引。它与末世宗教的故事相似并不是巧合,因为宗教故事会随着时间的推移而不断演变并且会经过人们一再挑选,以与人们产生强烈的共鸣并有效传播。出于同样的原因,你也可以在科幻电影和小说中找到这种论述。这种论述被用在小说里,与它跟宗教故事相似以及作为一种理解人工智能发展方向的方式而流行起来的原因都是一样的:它是一个好故事,而人们需要故事来理解这个世界。人们对这些故事的需求,远远超过对理解「智慧」的本质或理解推动技术进步的因素的需求。

via https://www.theverge.com/2019/12/19/21029605/artificial-intelligence-ai-progress-measurement-benchmarks-interview-francois-chollet-google

来源 | 雷锋网

]]>
//m.krtcgo.com/%e4%bb%8e-alphago-%e5%88%b0%e5%85%b7%e6%9c%89%e4%ba%ba%e7%b1%bb%e6%99%ba%e6%85%a7%e7%9a%84-ai-%e7%a9%b6%e7%ab%9f%e6%9c%89%e5%a4%9a%e8%bf%9c%ef%bc%9ffrancois-chollet-%e6%9c%89%e4%ba%86%e4%b8%80/feed/ 0
周杰伦cos油画、钢铁侠穿越,北大微软新方法让换脸更惊艳 //m.krtcgo.com/%e5%91%a8%e6%9d%b0%e4%bc%a6cos%e6%b2%b9%e7%94%bb%e3%80%81%e9%92%a2%e9%93%81%e4%be%a0%e7%a9%bf%e8%b6%8a%ef%bc%8c%e5%8c%97%e5%a4%a7%e5%be%ae%e8%bd%af%e6%96%b0%e6%96%b9%e6%b3%95%e8%ae%a9%e6%8d%a2/ //m.krtcgo.com/%e5%91%a8%e6%9d%b0%e4%bc%a6cos%e6%b2%b9%e7%94%bb%e3%80%81%e9%92%a2%e9%93%81%e4%be%a0%e7%a9%bf%e8%b6%8a%ef%bc%8c%e5%8c%97%e5%a4%a7%e5%be%ae%e8%bd%af%e6%96%b0%e6%96%b9%e6%b3%95%e8%ae%a9%e6%8d%a2/#respond Tue, 07 Jan 2020 02:48:28 +0000 https://new.openi.org.cn/%e5%91%a8%e6%9d%b0%e4%bc%a6cos%e6%b2%b9%e7%94%bb%e3%80%81%e9%92%a2%e9%93%81%e4%be%a0%e7%a9%bf%e8%b6%8a%ef%bc%8c%e5%8c%97%e5%a4%a7%e5%be%ae%e8%bd%af%e6%96%b0%e6%96%b9%e6%b3%95%e8%ae%a9%e6%8d%a2/ 换脸效果不够真实,能让你看出破绽?看看北大和微软的研究者如何生成更加真实的换脸效果,如何解决遮挡、光线等各种问题。

换脸是非常吸引人的一种应用,开发者可以用 VAE 或 GAN 做出非常炫酷的效果。一般而言,换脸会将 A 脸特征换到 B 脸上,同时保留 B 脸的神情或动态。像 FaceSwap 这样开源项目已经能生成非常真实的假脸视频,不过仔细看看仍然会发现有的地方存在模糊,有的地方转换不太自然。

那么怎样才能生成转换更自然,效果更真实的换脸视频?这就是这篇论文的研究目的,研究者新模型不仅感官上更真实,同时还保留了比其它前沿方法更多的个人特征。

下面我们先看看效果:

研究者同时从网络上下载人脸图像以展示 FaceShifter 的强大能力。如图 11 所示,新方法可以处理不同情况下(如夸张的动作、非常见光照以及极其复杂的面部遮挡)的人脸图像。

研究者此次提出了一种新型的两段式框架——FaceShifter。这个框架可以完成高保真的换脸过程,在面部有遮挡时依然可以很好地工作。不像那些只利用有限信息就完成换脸任务的框架,该框架中的第一部分就自适应地整合了目标图像的所有属性以生成高保真的换脸图片。

此外,研究者提出了一种新型的属性编码器以提取人脸图像的多级属性,同时提出了一种基于 Adaptive Attentional Denormalization (AAD) 的新型生成器,自适应地整合人脸合成时所需的特征和属性。

为了解决脸部遮挡的问题,研究者在框架中加入了第二部分——Heuristic Error Acknowledging Refinement Network (HEAR-Net)。这个网络通过自监督的方式,在没有人工标注的情况下实现异常区域的修复。

下面,让我们看看这种高逼真度的换脸到底是怎么样的。

论文:FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping

论文地址:https://arxiv.org/pdf/1912.13457.pdf

换脸的缺陷与改进

换脸技术就是将目标图像中人脸的面部特征替换为源图像人脸的对应部分,同时还要保留一些如头部动作、脸部表情、光线、背景等基本属性。由于这一技术在电影合成、电脑游戏以及隐私保护等方面有很广泛的应用前景,这一技术已经广泛引起了视觉和图像领域的关注。

最近,基于 GAN 的一些工作已经取得了很不错的结果。但是,如何生成真实且保真的图像依旧是个很大的难题。
因此我们这项工作的重点之一就是提高换脸后图像的保真度。为了让结果在感官上更具吸引力,如何让合成的换脸图像无缝融入新脸,同时保持原有姿势表情,这就是我们要研究的重点。也就是说,换脸图像的渲染应当忠于目标图像的光线(方向,强度,颜色等),被交换的脸也应该跟目标图像有相同的分辨率。

这些都不是仅仅 Alpha 或是 Poisson 混合能够解决的,我们真正需要的是让换脸过程可以自适应地继承目标图像完整属性信息,这样目标图像的属性(亮度、分辨率等)就可以让换脸后的图像变得更加真实。

然而,以前的方法要么忽略了这一需求,要么就是无法自适应或者完整地集成这些信息。具体来说,以往的许多方法仅利用目标图像的姿态和表情来指导换脸过程,然后利用目标人脸 Mask 将人脸混合到目标图像中。这一过程容易产生一些缺陷,因为:

1)在合成换脸图像时,除了姿态和表情外,对目标图像的了解很少,很难保证场景光照或图像分辨率等目标属性不发生变化;2)这样的混合将丢弃位于目标 Mask 外部的源面部特征。

因此,这些方法不能保持源标识的面形,我们在图 2 中展示了一些典型的失败案例。

图 2:之前方法在 FaceForensics++数据集上的失败案例
 
为了实现高保真的人脸交换结果,在框架的第一阶段,我们设计了一个基于 GAN 的网络以对目标属性进行彻底的自适应集成,并称之为自适应嵌入集成网络(Adaptive Embedding Integration Network,AEI-Net)。我们对网络结构做了两个改进:

1)我们提出了一种新的多级属性编码器,用于提取各种空间分辨率下的目标属性,而不是像 RSGAN[28] 和 IPGAN[5] 那样将其压缩成单个向量;

2)提出了一种有 Adaptive Attentional Denormalization(AAD) 层的新型生成器器,该发生器自适应地学习了在何处集成属性以及特征的嵌入。与 RSGAN[28]、FSNet[27] 和 IPGAN[5] 的单级集成相比,这种自适应集成为结果带来了相当大的改进。

通过这两个改进,我们提出的 AEI-Net 可以解决图 2 中光照不一致和人脸形状不一致的问题。

此外,处理面部的遮挡一直是换脸的挑战。Nirkin 等人的方法中对人脸进行分割并训练以使其能感知到脸部的遮挡部分,我们的方法可以以一种自监督的方式学习恢复人脸异常区域,而且不需要任何人工标注。我们观察到,当把同一张人脸图像同时作为目标图像和源图像,并输入到一个训练良好的 AEI 网络时,重建的人脸图像跟输入图像有多处改变,这些改变所在的位置基本上就是脸部遮挡的区域。

因此,我们提出了一种新的 Heuristic Error Acknowledging Refinement Network (HEAR-Net),在这种重构误差的指导下进一步精化结果。重要的是,这个方法不止是能修正脸部遮挡,它还可以识别很多其他的异常类型,如眼镜、阴影和反射效应。

我们提出的两段式换脸框架 FaceShifter 与场景无关。一旦训练完成,该模型就可以应用于任何新的人脸对,而不需要像 DeepFakes 和 Korshunova 等人的 [21] 那样找特定的受试者训练。实验结果表明,与其他先进的方法相比,我们的方法获得的结果更真实、更可靠。

FaceShifter 模型什么样

我们的方法需要输入两张图像——提供人脸特征的源图像 X_s 以及提供动作、表情、光线、背景等属性的目标图像 X_t。最终的换脸图像是通过两段式框架 FaceShifter 生成的。在第一阶段中, 我们的 AEINet 自适应地基于集成信息生成了一个高保真的换脸结果


。在第二阶段,我们使用 Heuristic Error Acknowledging Network (HEARNet) 来处理面部遮挡,并对结果进行改进,最后的结果用

表示。
自适应嵌入集成网络(Adaptive Embedding Integration Network)
在第一阶段,我们希望生成一个高保真(拥有源图像 X_s 特征,且保留目标图像 X_t 动作等属性)的人脸图像。为了达到这一目标,我们的方法包含三个模块:
i)从源图像中抽取特征的特征编码器 z_id(X_s);
ii)从目标图像 X_t 抽取属性的多级属性编码器 z_att(X_t);
iii)基于 Adaptive Attentional Denormalization (AAD) 生成换脸图像的生成器。

启发式误差修正网络(Heuristic Error Acknowledging Refinement Network)
尽管 AEINet 第一阶段的换脸结果
已经能很好的获取目标图像的动作、表情、光照等属性,但是当目标脸部图像 Xt 中对脸部有遮挡时,这种遮挡就很难被继承下来。为了解决这个问题,过去的一些方法 [30,29] 加入了一个新的脸部分割网络。这个网络的训练数据需要进行大量标注(哪一部分有遮挡),而且这种有监督方式可能很难识别出未知的遮挡方式。

对于面部遮挡问题,我们提出了一种启发式的方法。如图 4(a) 所示,当目标图像中的脸被遮挡时(头发或是帽子上的铁链),有一部分遮挡会在换脸过程中小时。同时,我们发现,就算我们把同一张图同时作为源图像和目标图像输入给训练好的 AEI-Net,这种遮挡还是会在重建的图像中消失。此时这种输出与输入的误差,就可以作为我们定位面部遮挡的依据,我们把这种依据叫做输入图像的启发式错误,因为这个误差启发性的表征了异常发生的位置。

实验效果怎么样

与过去方法的比较

1. 定性对比

图 5 展示了我们在 FaceForensics++数据集上与 FaceSwap [2], Nirkin et al. [30], DeepFakes [1] 和 IPGAN [5] 的比较。

图 6 则展示了我们的方法与最新方法 FSGAN 的对比。
 

由于 FaceSwap [2], Nirkin et al. [30], DeepFakes [1] 和 IPGAN [5] 的策略都是先生成脸部区域图像,然后将其嵌入到目标脸中,我们可以从比较中明显的看出这些方法的嵌入误差。

这些方法生成的所有人脸与其目标人脸有着完全相同的人脸轮廓,而且源人脸的形状也被忽略了(图 5 第 1-4 行及图 6 第 1-2 行)。除此之外, 他们的研究结果一定程度上忽略了目标图像的一些重要信息,如光照(图 5 第 3 行,图 6 第 3 – 5 行),图像分辨率(图 5 第 2 行和第 4 行)。由于 IPGAN[5] 的矩阵只描述了单一级别的属性,因此其所有样本都显示出了分辩率下降的问题。同时,IPGAN 也不能很好地保存目标面部的表情,如闭上的眼睛(图 5 第 2 行)。

我们的方法很好地解决了所有这些问题,实现了更高的保真度——保留了源人脸(而非过去的目标人脸)的脸部轮廓,且保证了目标图像(而非过去的源人脸)的光线与图像分辨率。我们的方法在处理面部遮挡问题上的表现甚至可以超过 FSGAN [29]。

2. 定量对比

我们使用不同的人脸识别模型 [41] 提取特征向量,并采用余弦相似度来度量特征差距。我们从 FaceForensics++的原始视频中为每个测试集中的换脸结果匹配了一张最接近的脸,以检查这张脸是否属于正确的源视频。表 1 中的 ID 就是使用该方法获得的平均准确率,这个方法可以用来测试特征保留能力。我们提出的框架获得了更高的 ID 分数,且检索范围很大。

3. 人为评估

我们做了三次用户调研,以评测本模型的表现。我们让用户从以下选项中选择:i)与源脸最相似的图像;ii)与目标图像有最相似动作、表情、光照的图像;iii)最真实的图像。

表 2 展示了每个方法在其研究中的平均被选取率。这个结果现实我们的模型在大范围上超过了其余三个模型。

框架分析

图 7:AEI-Net 与三个 baseline 模型的对比结果
 

图 8:在不同特征级上,AAD 层中基于注意力机制的 Mask Mk 可视化。
图 9:基于属性嵌入的查询结果
 
图 10:第二阶段中修正结果展示了 HEAR-Net 在各种误差(遮挡、反光、动作微移、颜色)上的强大能力。
来源 | 机器之心
]]>
//m.krtcgo.com/%e5%91%a8%e6%9d%b0%e4%bc%a6cos%e6%b2%b9%e7%94%bb%e3%80%81%e9%92%a2%e9%93%81%e4%be%a0%e7%a9%bf%e8%b6%8a%ef%bc%8c%e5%8c%97%e5%a4%a7%e5%be%ae%e8%bd%af%e6%96%b0%e6%96%b9%e6%b3%95%e8%ae%a9%e6%8d%a2/feed/ 0
首个“AI面试法案”在美国伊利诺斯州实施,保护面试者的权利就这么简单? //m.krtcgo.com/%e9%a6%96%e4%b8%aaai%e9%9d%a2%e8%af%95%e6%b3%95%e6%a1%88%e5%9c%a8%e7%be%8e%e5%9b%bd%e4%bc%8a%e5%88%a9%e8%af%ba%e6%96%af%e5%b7%9e%e5%ae%9e%e6%96%bd%ef%bc%8c%e4%bf%9d%e6%8a%a4%e9%9d%a2/ //m.krtcgo.com/%e9%a6%96%e4%b8%aaai%e9%9d%a2%e8%af%95%e6%b3%95%e6%a1%88%e5%9c%a8%e7%be%8e%e5%9b%bd%e4%bc%8a%e5%88%a9%e8%af%ba%e6%96%af%e5%b7%9e%e5%ae%9e%e6%96%bd%ef%bc%8c%e4%bf%9d%e6%8a%a4%e9%9d%a2/#respond Fri, 03 Jan 2020 03:02:08 +0000 https://new.openi.org.cn/%e9%a6%96%e4%b8%aaai%e9%9d%a2%e8%af%95%e6%b3%95%e6%a1%88%e5%9c%a8%e7%be%8e%e5%9b%bd%e4%bc%8a%e5%88%a9%e8%af%ba%e6%96%af%e5%b7%9e%e5%ae%9e%e6%96%bd%ef%bc%8c%e4%bf%9d%e6%8a%a4%e9%9d%a2/ 随着 AI 技术逐渐发展、大众以及企业对 AI 的了解越来越多,也有越来越多的企业尝试让 AI 参与到公司的决策中来,比如参与到招聘中。AI 算法可以做的事有很多,包括招聘广告的定向推广、简历筛选,乃至在视频面试中分析面试者的面部表情。

不过这整个过程对面试者来说都是不透明的,被算法评价的一方并不知道系统是如何分类、打分、排序的。除了面试者一方不知情之外,算法是否会引入额外的偏见、让面试过程变得不公平也是有疑问的。美国伊利诺斯州从 2020 年 1 月 1 日起实施的“人工智能视频面试法案”(Artificial Intelligence Video Interview Act)就打算开始插手这个过程。

这个法案是美国所有的州中首个实施的此类法案。法案的目标是让面试者对这些基于 AI 的面试工具的运转情况有更多了解。具体来说这个法案有三项基本要求:

  1. 如果企业要使用 AI 工具评价面试者和某个职位的匹配程度,那么企业必须明确告知面试者。
  2. 企业还需要向面试者解释这些 AI 工具是如何运行的,以及这些工具会把哪些常见性格特点作为评判依据
  3. 要保护面试者的隐私,只有具备足够的专业知识或者技术知识的人才可以在面试后回看面试录像,而且如果面试者提出了要求,那么企业必须在提出要求的一个月内删除这个面试者的所有视频。

这项法案看起来是积极的一步,但实际上,这个法案针对的 AI 种类非常有限,而且也没有对企业如何使用 AI 提出任何要求,很难说这个法案的实施能起到多大程度的实际作用。

关注科技运用与人权之争的非盈利组织 Upturn 的高管 Aaron Rieke 对媒体表示:“对整个招聘流程来说,这能起到的作用很小。”法案谈到了用来分析视频的 AI 工具,但用来评价面试者的 AI 工具远不止和视频分析相关的那些。而且法案也没法确保当你要求不要让 AI 工具评价你的时候,企业是否还会公正地考虑你是否符合职位。“所以,如果你要求法案中的权利,所需要付出的代价是可能完全不会再被企业考虑的话,这个法案就起不到多大作用了。”除此之外,企业对 AI 工具的解释也可能是宽泛的、高度抽象的,并不能帮助面试者建立更好的理解。

来源 | 雷锋网

]]>
//m.krtcgo.com/%e9%a6%96%e4%b8%aaai%e9%9d%a2%e8%af%95%e6%b3%95%e6%a1%88%e5%9c%a8%e7%be%8e%e5%9b%bd%e4%bc%8a%e5%88%a9%e8%af%ba%e6%96%af%e5%b7%9e%e5%ae%9e%e6%96%bd%ef%bc%8c%e4%bf%9d%e6%8a%a4%e9%9d%a2/feed/ 0
昇腾路标,AI路口:2020给智能世界另一个选择 //m.krtcgo.com/%e6%98%87%e8%85%be%e8%b7%af%e6%a0%87%ef%bc%8cai%e8%b7%af%e5%8f%a3%ef%bc%9a2020%e7%bb%99%e6%99%ba%e8%83%bd%e4%b8%96%e7%95%8c%e5%8f%a6%e4%b8%80%e4%b8%aa%e9%80%89%e6%8b%a9/ //m.krtcgo.com/%e6%98%87%e8%85%be%e8%b7%af%e6%a0%87%ef%bc%8cai%e8%b7%af%e5%8f%a3%ef%bc%9a2020%e7%bb%99%e6%99%ba%e8%83%bd%e4%b8%96%e7%95%8c%e5%8f%a6%e4%b8%80%e4%b8%aa%e9%80%89%e6%8b%a9/#respond Fri, 03 Jan 2020 02:53:28 +0000 https://new.openi.org.cn/%e6%98%87%e8%85%be%e8%b7%af%e6%a0%87%ef%bc%8cai%e8%b7%af%e5%8f%a3%ef%bc%9a2020%e7%bb%99%e6%99%ba%e8%83%bd%e4%b8%96%e7%95%8c%e5%8f%a6%e4%b8%80%e4%b8%aa%e9%80%89%e6%8b%a9/ 2019年,我们在畅想什么样的未来?

城市中的智能视觉体系随时保障着每个人的安全;自动驾驶汽车畅通无阻;AI帮我们研制出攻克绝症的新药;在浩瀚星空中找到能源甚至生命……所有这些,是我们每个人的梦境。2019年这些景象似乎依旧很远,但这一年,改变确实正在发生。

机器视觉、自动驾驶、AI生物研究,这些指向未来的关键技术,都将来自AI的不断探索;而AI能够发展,又将建立在智能算力的牢固地基之上;而智能计算的根源,是AI芯片。

今天,AI芯片很可能是未来一个科技发展周期的轴心,已经成为了众人皆知的常识。而这个产业到底发生了哪些改变,在2019年有哪些进展,可能并不完全为大众所知。

事实上,在AI所需的训练+推理全流程里,能够提供核心芯片支撑的企业非常稀少。而与历史上数次芯片迭代所不同的是,这次能够提供核心芯片的名单里,有了中国玩家的身影。

2018年10月,华为发布了昇腾系列芯片,这标志着华为AI战略正式拉开帷幕。而当2019即将过去,昇腾度过了走入现实世界的第一个365天,在盛大的诞生日之后,它都做了什么?影响了什么?改变了什么?

让我们以AI芯片的全球产业局势为开端,一起梳理一下“昇腾纪”带来的全场景AI元年。

回忆结束时我们会发现,AI世界不仅迎来了一个芯片系列,更是迎来了一条新的道路,一个新的选择。

时代的分野

从经典计算,到图像计算、移动处理器,芯片的发展史告诉我们,每个新类型芯片的创生周期里,一般都只会留存两到三家最终的芯片提供商。而另一个事实是,大型芯片的提供商往往都来自美国。

2012年,英伟达的工程师偶然间发现了GPU与深度神经网络的耦合性,为英伟达打开了一个无比诱人的“蛋糕仓库”。2017年,重磅投入AI技术的谷歌,用TPU补完了AI芯片这一关,并将之作为谷歌云的杀手锏之一。这也是在华为发布昇腾之前,唯二的两家AI训练芯片提供商。

而当AI技术开始为全球共同关注,有可能改变各个产业的生产方式时,刚进入这个领域的开发者与企业,会发现芯片算力的选择如此之少。TPU只能基于谷歌云调用,并且排队艰难。而英伟达的推理和训练用显卡都是标准的“紧俏商品”,一般开发者很难买到。甚至有了开发者苦英伟达久矣的说法。

而2019年的另一些事实告诉我们,一味依靠美国芯片是有风险的,尤其在AI算力需要注入各行各业这个前提下。
假如故事如CPU和GPU时代一样发展,那么最终可能又是一个美国领先、其他国家等待模仿的剧本。AI之路可能会像PC和互联网一样,让中国开发者首先学会的是等待。

然而在时代的洪流静静流淌时,突然一个新的岔路产生了。华为发布了昇腾系列处理器,让AI处理器提供商的数量从二变成了三。所谓“三生万物”,一个新的参与者,代表着一系列新的选择。

比如说,英伟达的AI芯片是从显卡业务而生,它的产业思路都基于显卡体系,不覆盖开发框架和开发工具;而谷歌的TPU围绕谷歌云服务,无法进入边缘、终端场景。与二者相异,华为作为网络、计算、存储多领域的技术贯通企业,在业内首先提出了“全栈全场景AI”,基于达芬奇架构,让AI算力贯穿从芯片到算法开发的所有流程,覆盖从训练到推理的所有场景,这直接指向现实的AI应用和开发场景。于是,我们从昇腾的路标看去,能看到其他企业未曾抵达过的远方。

在全球AI基座的视野里,昇腾是一个新的选择,而且是一个完全不同的选择。

Portfolio的力量

如果说2018年昇腾的出世,给智能计算产业标明了一个新的方向。那么当时针拨动到2019,昇腾的商用化进展就是顺延这个方向做出了真实的进展。一条AI之路在算力迷雾中显露了出来。

昇腾的2019,可以由底座到应用,分成三个阶段来阐述:即算力底座、产业平台,与生态应用。

在底座层面,这一年中的核心事件就是昇腾910处理器投入商用。在此之前,应用于AI推理场景的昇腾310处理器以及打下了坚实的产业基础,构筑了Atlas智能计算平台这个产业枢纽。而AI领域真正的重型武器——训练芯片,则让昇腾算力基座进入了全栈完整形态,构建了真正的Portfolio。

2019年8月,华为正式发布昇腾910处理器,并且宣布昇腾910和Mindspore开发框架随即进入商用。这一款AI处理器代表着业内最强的AI算力,也代表着华为已完成全栈全场景AI解决方案(Portfolio)的构建。昇腾910的出现,对整个AI产业来说带来了三个实际改变:

1、AI训练算力极限被突破,算力能够更轻易、更低成本被获取。

2、昇腾系列的全场景打通,构筑了云边端一体化AI的全新可能。

3、全栈AI,提供给开发者和应用者更优质的开发效率,导致产业智能化的耦合加速发生。

全栈全场景AI的力量,在2019年真实注入了AI产业世界。而在这重力量之上,华为又凝结出了智能计算面向千行百业、全栈全场景的产业支撑。

Atlas的底座

作为一系列AI处理器,昇腾310和910投入产业应用中,需要具象化成具体的产业形态,而这一过程并不是简单的封装和调参。各行业、各场景不同的智能化需求,以及配套产生的不同基础设施缺口,意味着智能计算产品必须具备多元性、产业性,以及全场景适配的特点,以此解决不同场景、不同需求下的AI算力适配。

而这一缺口,也恰恰是英伟达和谷歌都无法填补的,其中需要大量ICT技术和商业理解作为引擎,这也给了华为机会与责任。华为在2019年给出的答案,叫做Atlas。

2019年4月,在智能计算大会深圳站,华为Atlas人工智能计算平台正式发布,开启了Atlas商用和规模销售的进程。
Atlas的名字来源于古希腊神话中托起宇宙的大力神。Atlas平台包括多款能够使用不同场景、不同需要的智能计算产品,它的全面性与多样化,恰好对应了托起AI天空的意向。在4月首批上市的Atlas产品,主要基于昇腾310提供的AI推理能力,主要包括Atlas 200 AI加速模块、Atlas 300 AI加速卡、Atlas 200 DK AI开发者套件、Atlas 500智能小站四款产品,能够覆盖边端侧多个场景,实现AI算力的全面覆盖。

而在9月18日的华为全联接大会上,华为副董事长胡厚崑重磅发布了全球最快AI训练集群Atlas 900,这款产品汇聚了华为数十年的技术积淀,是当前全球最快的AI训练集群。Atlas 900由数千颗昇腾910 AI处理器互联构成,总算力达到256P~1024P FLOPS @FP16,相当于50万台电脑的计算能力。Atlas 900的问世,标志着华为智能计算正式进入“重武器”时代,形成了从训练到推理的完整AI算力布局。同时,Atlas家族也加入了基于昇腾910处理器的训练卡Atlas 300及AI训练服务器Atlas 800。

2019年,产业价值独特,技术差异化明显的Atlas系列产品也收获了一系列荣誉。比如在3月,华为“Atlas 300 AI加 速卡”及“Atlas 500智能小站”凭借全新的设计理念,荣获了著名的红点设计大奖。6月在在东京举行的Interop展会,经IT权威专家多项目严格评审,华为Atlas 500智能小站凭借 “超强AI算力、云边协同、边缘部署”等特性,获得了2019 Interop东京展Best of Show Award大奖。

短短一年间,Atlas经历了商用发布、产业补完,以及行业认可的全过程。而更重要的,是这一年中Atlas已经将智能计算的应用价值推进到了产业中,让行业生态体验到了昇腾带来的全新选择。

千行百业的智慧涌动

与任何技术一样,AI的最终评价标准是要落进现实。从昇腾到Atlas,下一站是千行万业的智能应用。在2019年,昇腾并没有让观众等待,而是拿出了一系列具有充分想象力的智能驱动案例。

比如在全联接大会上,华为与上海天文台合作,在天文界著名的SKA项目中,用Atlas 900来作为新的智能计算支持。这一合作改变了天文界的效率规则,以SKA所拍摄的20万颗星体数据为例。一位天文学家需要169天才能完成的星体搜索,Atlas 900只需要10秒就可以完成。从天文开始,地址勘探、能源探索、计算,这些AI面前最重的挑战,正在被昇腾和Atlas一个个解开。

在我们的生活中,也有大量产业正在被Atlas所改变。比如遥感、智能安防、质检等诸多领域都能看到Atlas200、300等产品的身影。众多产业正在被AI所改变,比如一个令人印象深刻的案例,是2019年9月,南方电网深圳供电局与华为共同发布了基于昇腾的电网创新方案。通过“以系统智能分析为主、人工判断为辅”的新模式,原本需要20天才能完成的现场巡视工作,输电监控指挥中心现在仅需2小时就可完成,巡检效率提高了80倍,真实改变了产业生产效率。

在2019年临近尾声时,昇腾和Atlas又带来了一个重磅消息。11月29日,华为与鹏城实验室在深圳共同发布了鹏城云脑Ⅱ一期。被称为“AI国家队”的鹏城实验室,将使用Atlas 900作为云脑Ⅱ的计算底座,从而使云脑Ⅱ迈进千P级算力。从而为计算机视觉、自然语言、自动驾驶、智慧交通、 智慧医疗等各类基础性研究提供全新的智能计算基础。
在应用之外,华为还在2019年积极推进了基于昇腾和Atlas的生态建设。以开发者大会、产学研合作等方式,将昇腾的魅力对外开放,引导开发者和研究者探索昇腾的使用场景,用AI创造更多价值。在11月5日,HUAWEI ECO-CONNECT EUROPE 2019上,华为正式发布基于昇腾的欧洲AI生态计划。宣布未来5年投入1亿欧元,与产业组织、20万开发者,500家 ISV 伙伴、50所研究机构与大学共同启动欧洲AI生态计划。这意味着昇腾的生态之旅已经开启了全球性布局,为全球共同的AI之路提供新的可能。

回顾2019年带来的改变,AI开发者应该有很多感慨。如果AI世界没有昇腾和Atlas系列,那么开发者和各行业应用者、学生研究者,都只能去适应AI算力稀缺、开发兼容性不强的开发环境。换言之,2019年“昇腾纪”的开启,让众多开发者不用再去适应苛刻的AI环境,而是让AI基础设施去适配自己的需求与梦想。

规则被撬动,改变已到来。

在“昇腾-Atlas-千行万业”这条AI之路被打通之后,众多产业的智能化进程将被改写,开发者的脑洞基础可能被改写和颠覆。这是一个时代的分野,是智能时代的另一个选择。

8月,在2019上海世界人工智能大会中,科技部宣布将依托华为建设基础软硬件国家新一代人工智能开放创新平台,面向各行业、初创公司、高校和科研机构等的AI应用与研究,以云服务和产品软硬件组合的方式,提供全流程、普惠的基础平台类服务。

基础软硬件平台是AI的基座与必经之路,也是全球AI发展中的战略高点。华为是目前国内唯一具备全栈全场景AI能力的厂商,其在“AI国家队”扮演的角色,恰好能说明昇腾处理器与智能计算产业的关键价值。

“华为在通用计算和AI计算领域坚持战略投入,持续创新,通过解决世界级计算技术难题,为世界提供最强算力。”——这句昇腾的诺言,在2020已经不是将来时。

来源 | 亿欧网

]]>
//m.krtcgo.com/%e6%98%87%e8%85%be%e8%b7%af%e6%a0%87%ef%bc%8cai%e8%b7%af%e5%8f%a3%ef%bc%9a2020%e7%bb%99%e6%99%ba%e8%83%bd%e4%b8%96%e7%95%8c%e5%8f%a6%e4%b8%80%e4%b8%aa%e9%80%89%e6%8b%a9/feed/ 0