苏州众里数码半导体行业信息安全专家

服务热线:18625216903
众里成立8大社群,1000+CIO人才构建行业生态链

多任务多模态AI加速商品化,企业流程虚实整合有更多新选择

2022-01-26

原为NLP而生的Transformer 架构,在2021年不断被科技巨头证实能同时处理图文、影片等多模态能力,微软、Line 也纷纷预告要用来打造企业级AI服务。展望2022年,企业将见到多任务多模态 AI服务的新选择

一套模型通吃多任务,是迈向通用AI的关键一步

微软举例,以Transformer打造的多任务AI模型 Florence v1.0,可用来优化自动加注图说功能。未优化前,该功能形容一张照片是一群棒球员站在草皮场上,优化后则是一群橄榄球员正在庆祝,更贴切照片内容。

这个顶尖专家努力钻研数十年的题目,在2021年,有了新的大变化。各大科技巨头相继发现,原本擅长自然语言处理(NLP )的Transformer架构,也能用来同时解决文字、影像,甚至是影片等不同模态的任务,效果还更好。

企业信息安全

TrOCR手写辨识和影印辨识超强

比如在202110月,微软亚洲研究院揭露了一款超强 OCR工具TrOCR,完全不需要计算机视觉专用的卷积网络(CNN ),单用一套Transformer就能辨识影像和生成文字,手写辨识和影印辨识两种任务更达到高阶水平。

OCR工具用途广泛,银行票据手写辨识、街景招牌辨识、发票辨识都少不了它,如何让数位世界理解真实世界信息的意义,OCR正是最关键的核心技术。这个技术的演进,带来的不只是应用面的提升,更是会对虚实整合应用带来根本性的影响,例如企业就更容易将实体流程,串接到数位应用上,来展开更自动化的流程。

 

Transformer:从跨域尝鲜到快速爆发

Transformer架构是这场多任务、多模态AI竞赛的主角。它是NLP 专用架构,2017年问世后,改写了NLP设计思维,堪称NLP 分水岭的大型语言预训练模型BERT和能生成真人难以辨识文章的模型GPT-3,都以 Transformer为基础。

2020年夏天,脸书开出第一枪,将Transformer用于文字处理以外的计算机视觉任务,打造一套影像辨识模型 DETR,不仅简化了辨识工作,表现还达到Faster R-CNN般的高阶水平。Google 也紧追在后,以Transformer实作计算机视觉任务,打造出广受AI社群爱戴的影像辨识模型 ViT,号称比CNN网络更有效率。

这两项研究一发表,立刻引起各大AI领袖和ML社群关注,因为,两大巨头都证实了 Transformer的计算机视觉潜力,很可能挤下独占鳌头的CNN。他们也证明,Transformer 有能力处理不同模态的任务。

两大巨头的研究揭开序幕后,2021年迎来Transformer多任务、多模态 AI的快速爆发潮。就重点模型来说,年初,OpenAI先是以Transformer 架构打造可同时处理影像和文字这两种模态资料的模型DALL·E,号称是影像版 GPT-3,还推出能配对文字和图片的CLIP模型。脸书也随之发表一系列Transformer 改良模型,其一是UniT,能同步处理两种模态资料和7种任务, NLP、自然语言理解(NLU)、影像辨识、物件侦测等任务都能解。

 

从研究实验走向商用化,企业将有更多选择

虽然这些多任务、多模态AI系统多处于研究实验阶段,但也有些已在实用上拿下好成绩。比如,史丹佛大学开源一套Transformer 模型ConVIRT,可自动替X光片加上文字注解。脸书则利用多模态模型来侦测仇恨言论,能一次阅读文字、图片和影片等内容并归类为有害或无害。

甚至,微软年底发展出新一代计算机视觉基础模型Florence v1.0,除了通吃各计算机视觉任务外,还能处理影像与文字任务,拿下TextCaps 等多项挑战赛榜首。但这不单是研究成果,微软强调,Florence v1.0已整合至Azure云平台,来优化自动添加图说、加标签、自定义物件侦测等功能。

微软更透露,Florence系列模型未来还能作为预训练模型,企业只要提供少样本资料,就能微调模型,打造成所需的预测系统。而且,微软还打算用Florence 模型来改善微软365的智慧相片功能,以及产业云中的商品图片合规性检查。

对企业来说,明年,将见到更多以Transformer为基础的多任务、多模态AI 服务,不仅不需要耗费训练成本自行开发,这些模型,还将提供更多新选择。象是,多任务多模态AI中,图片辨识AI OCR文字AI结合成单一的图文AI服务,就已跨出商品化的第一步:微软 Florence已成为Azure平台认知服务的加值功能,也有机会变成企业可以客制使用的独立服务。

许多纸本文件、实体物品上的文字,都需要透过OCR技术,若进一步运用图文AI ,一次取得文字和影像,让数位世界的App能同步取得文字意义和影像来展开互动,当这样的多任务多模态AI商用化之后,不只冲击企业流程自动化,也能带来更多企业虚实整合应用的新可能。

相关推荐
  • 2014.01.05

咨询热线

18625216903