把文字变成绘画 AI“开始”艺术

1月初,美国人工智能公司OpenAI推出了跨越文本和图像维度的两个模型:DALL E和CLIP。前者可以基于文本生成图像,后者可以基于文本对图像进行分类。这一突破表明,通过书面语言操纵视觉概念现在触手可及。自然语言处理和视觉处理的界限已经被打破,多模态AI系统正在逐步建立。

“数据有许多来源或形式,每一种都可以称为一种形态。比如图像、视频、声音、文字、红外、深度等等都是不同模式的数据。单模态AI系统只能处理单模态的数据。例如,对于人脸识别系统或语音识别系统,它们只能处理图像和声音数据。”中国科学院自动化研究所副研究员黄岩在接受《科技日报》采访时表示。

相对而言,多模态AI系统可以同时处理多种模态的数据,可以将多种模态数据结合起来进行综合分析。“例如,服务机器人系统或无人系统是典型的多模态系统。他们会在导航过程中实时采集视频、深度、红外等模态数据,综合分析后选择合适的行驶路线。”黄岩说。

不同层次任务强行关联会产生“壁垒”

就像人类有视觉、嗅觉和听觉一样,AI也有自己的“眼、鼻、口”。为了研究的针对性和深度,科学家通常将其分为计算机视觉、自然语言处理、语音识别等研究领域,以解决不同类别的不同实际问题。

自然语言处理和视觉处理的过程是怎样的,为什么两者之间会有障碍?

语义学是指单词、图像或符号的构成和意义。“自然语言处理和视觉处理都侧重于识别和理解不同模态数据中包含的语义信息,但两种数据的语义表达和处理方法不同,导致存在所谓的‘语义障碍’。”黄岩说。

视觉处理中最常见的数据是图像,每个图像都是由不同像素排列而成的二维结构。像素本身不具有任何语义类别信息,即不能仅由一个像素定义为图像数据,因为像素本身只包含0到255之间的一个像素值。

“比如对于一张人脸图像,如果只看一些像素,就无法识别人脸图像的语义类别信息。因此,计算机视觉领域的研究人员更多的是在研究如何将像素数据与人工智能相结合,判断这个数据集的语义类别。”黄岩说。

“最常见的语言数据是句子,它是由不同的单词序列化而成的一维结构。与图像像素不同,文本中的每个单词都已经包含了非常清晰的语义类别信息。自然语言处理是基于词的更高级的语义理解。”黄岩说,比如同一个词排列顺序不同,就会产生不同的语义,多个句子组合成一个段落,就可以推断出隐含的语义信息。

可以说,自然语言处理主要研究直接用自然语言实现人与计算机之间的有效信息交换,包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解人类语言的意义和潜在意义。自然语言生成是指计算机可以在自然语言文本中表达其意图。

由此可以看出,自然语言处理要解决的问题水平超过了计算机视觉。自然语言处理的目的是理解人类世界,而计算机视觉所做的是你看到的就是你得到的。这是两个不同层次的任务。目前自然语言处理在语义分析上高于视觉处理,两者并不平等。如果语义上相关,就会有“语义障碍”。

AI打破自然语言处理和视觉处理的边界

此前由OpenAI投入巨资打造的自然语言处理模型GPT-3拥有1750亿个超级参数,是自然语言处理领域最强的AI模型。人们发现GPT-3不仅能回答问题、写文章和翻译,还能生成代码、进行数学推理、分析数据、绘制图表和制作简历。自2020年5月首次发射以来,GPT 3号因其惊人的文本生成能力而受到广泛关注。

和GPT 3一样,Dall E是一个基于Transformer架构的语言模型,有120亿个参数。区别在于GPT-3生成文本,而达尔-E生成图像。

在网上,OpenAI展示了DALL E的“超级想象力”,如果你随意输入一个单词,DALL E就可以生成相应的图片,这个图片可能存在于现实世界中,也可能是根据你自己的理解创造出来的。

此前,视觉领域的深度学习方法面临三大挑战。培训所需的大量数据集的收集和标注会导致成本上升;训练出来的视觉模型一般只擅长一种任务,迁移到其他任务要花费很多;即使它在基准测试中表现良好,在实际应用中也不一定令人满意。

在这方面,OpenAI的联合创始人曾经发布过一份文件,声称语言模型或解决方案可以尝试通过文本修改和生成图像。基于这一愿景,CLIP应运而生。CLIP只能通过提供图像类别的文本描述来对图像进行分类。

到目前为止,AI已经打破了自然语言处理和视觉处理的界限。“这主要是由于语义范畴分析在计算机视觉领域的快速发展,使得AI能够在更高的层次上进一步理解视觉语义。”黄岩说。

具体来说,随着深度学习的兴起,计算机视觉领域从2012年开始相继克服了一般自然场景中的目标识别、检测和分割等语义类别分析任务。自2015年以来,越来越多的视觉研究者开始提出和研究更高层次的语义理解任务,包括基于图像的语言描述、图像的语言搜索、面向图像的语言问答等。

“这些语义理解任务通常需要结合视觉模型和语言模型来解决,于是第一批出现了

横跨视觉领域和语言领域的研究者。”黄岩说,在他们推动下,两个领域开始相互借鉴优秀模型和解决问题的思路,并进一步影响到更多传统视觉和语言处理任务。

多模态交互方式会带来全新的应用

随着人工智能技术发展,科学家也正在不断突破不同研究领域之间的界限,自然语言处理和视觉处理的交叉融合并不是个例。

“语音识别事实上已经加入其中,最近业内出现很多研究视觉+语音的新任务,例如基于一段语音生成人脸图像或者跳舞视频。”黄岩说,但是要注意到,语音其实与语言本身在内容上可能具有较大的重合性。在现在语音识别技术非常成熟的前提下,完全可以先对语音进行识别将其转换为语言,进而把任务转换为语言与图像交互的常规问题。

无论是DALL·E还是CLIP,都采用不同的方法在多模态学习领域跨出了令人惊喜的一步。今后,文本和图像的界限是否会被进一步打破,能否顺畅地用文字“控制”图像的分类和生成,将会给现实生活带来怎样的改变,都值得期待。

对于多模态交互方式可能会带来哪些全新应用?黄岩举了两个具有代表性的例子。

第一个是手机的多模态语音助手。该技术可以丰富目前手机语音智能助手的功能和应用范围。目前的手机助手只能进行语音单模态交互,未来可以结合手机相册等视觉数据、以及网络空间中的语言数据来进行更加多样化的推荐、查询、问答等操作。

第二个是机器人的多模态导航。该技术可以提升服务机器人与人在视觉和语音(或语言)方面的交互能力,例如未来可以告诉机器人“去会议室看看有没有电脑”,机器人在理解语言指令的情况下,就能够结合视觉、深度等信息进行导航和查找。记者马爱平

免责声明:凡本站注明 “来源:XXX(非中国商业新闻网)”的新闻稿件和图片作品,系本站转载自其它媒体,转载目的在于信息传递,并不代表本站赞同其观点和对其真实性负责 。