谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了

2022-11-03 16:35:21 来源: IT之家 阅读量:16808   

杰夫·迪恩说,更多的进展即将到来。

有意思的是,今年AIGC的风头基本都被Stable Diffusion,Craiyon,Midjourney等小玩家抢走了——像Google这样的AI巨头也没怎么动静。

但实际上,谷歌并没有躺平。

临最近几年底,11月2日上午,谷歌终于有了大动作。这个在AI研究领域口碑最久的硅谷巨头,居然花大力气发布了四项最新的AIGC技术成果,可以根据文字提示生成:

高分辨率长视频

三维模型

音乐

密码

和可控文本生成技术。

AI赋能的生成模型有释放创造力的潜力通过这些技术,不同文化背景的人可以更方便地使用图像,视频和设计来表达自己,这在以前是不可能的,谷歌AI负责人杰夫·迪恩说

他表示,通过谷歌研究人员的不懈努力,现在该公司不仅在生成质量方面拥有业界领先的模型,而且还在这些模型的基础上做出了进一步的创新。

和AudioLM,一种音频模型,它可以在没有单词和音乐符号训练的情况下,仅通过听音频样本来继续生成填充音乐。

接下来,我们就好好看看谷歌这次都有哪些大动作。

AI写作助手,深受喜爱。

说实话,当我看到谷歌做了一个AI写作工具的时候,硅星人是有点担心失业的...

但是,在对这个工具有了更多的了解之后,这种心情就转化成了更多的欣慰。

我们一直在强调AI背后大语言模型的技术背景Google推出的LaMDA Wordcraft就是这样一种技术,将语言模型的核心功能最大化

Lamwordcraft是在LaMDA大语言模型基础上开发的写作辅助工具它是Google Brain团队,PAIR团队和Magenta音频生成项目团队的合作结晶

LaMDA本身的设计功能很简单:给定一个单词,预测下一个最有可能的单词是什么,也可以理解为完形填空或者句子补全。

你可以用Wordcraft改写句子,也可以让他把你的原文调整得更有趣或者更忧郁。

值得注意的是,著名科幻作家刘宇昆也参与了这个项目。

在写作的过程中,他遇到了一个场景,需要描述店里摆放的各种商品——在以前,这样的写作细节很容易打乱他的写作思路,但刘宇昆可以在Wordcraft的帮助下直接生成一个列表,节省了他的脑容量,集中精力写对故事更重要的东西。

在另一个场景中,他发现自己的想象力有限,不断重复熟悉的概念于是他把主动权交给了LaMDA,让它开始这将迫使我去探索一些我从未想过的可能性,寻找新的写作灵感

你可以在Wordcraft作家工作室的官方页面上找到刘宇昆在Wordcraft的帮助下写的短篇小说评价独白。顺便说一下,他还借用了Imagen为小说生成了几幅插图:

虽然今年AIGC的热闹被稳定扩散的炒鸡抢走了,但低调稳健的谷歌并没有躺平。

生成高分辨率和时间连贯的视频是一项非常困难的工作,谷歌研究的高级研究主任道格拉斯·埃克说。

幸运的是,我们最近有两项研究,Imagen Video和Phenaki,可以解决视频生成的问题。

具体来说,Imagen Video是一种通过文本生成图像的扩散模型,可以生成前所未有保真度的高清图像,同时,由于它是建立在基于Transformer技术的大规模语言模型上,所以也具有很强的语言理解能力。

而Phenaki则完全通过大语言模型生成视频,并在时间序列上不断生成token它的优点是可以生成极长的视频,画面的逻辑和视觉连贯性更强

说实话,这个项目不是我做的,但我觉得真的很神奇Eck表示,这项技术最强大的地方在于,它可以使用一系列多个文本提示来生成超高清视频,这带来了一种全新的讲故事能力

早些年,OpenAI发表GPT第一代模型的论文标题很经典:语言模型是少射学习器,指出大语言模型可以在极少量样本的基础上,在多种自然语言处理任务中展现出强大的能力——同时,这个标题预言了未来更大的语言模型能够做更多更强大的事情。

今天,谷歌展示的AudioLM纯音频模型证实了这一预测。

AudioLM是一个具有长期一致性的高质量音频生成框架它不需要任何单词或乐谱,只需要在非常短的音频样本的基础上,就能生成自然,连贯,真实的音频结果,而且不限于语音或音乐

AudioLM生成的句子在句法和语义上仍然保持着较高的可信度和连贯性,甚至可以延续样本中说话人的语气。

更何况这个模型一开始并没有用任何音乐数据进行训练,但结果却很惊人:它能从任何乐器或音乐录音中自动续写的事实,再次显示了大语言模型的真正实力。

以下音频是一段20秒左右的钢琴曲。先听听,感受一下:

其实只有前四秒是对模型的提示,后面的都是AudioLM自己完成的而且只有这个4秒钟的音频样本,没有辅以钢琴进行曲等专业的文字提示

你不需要提供给它一整段音乐来学习,只需要给它一小段,他就可以直接在音乐的空间开始写作——任何音频片段都可以,不管是音乐还是语音Eck表示,这种不可参考的音频生成能力早已超出了人们对AI创作能力的认知边界

其他AIGC技术和产品

除了上述新技术,谷歌还宣布了其他内容格式上的AI内容生成技术。

此外,谷歌在今年的I/O大会上为公众推出的早期应用程序AI Test Kitchen也将在不久的将来更新,以添加LaMDA model innovation解锁的新功能比如《城市梦想家》用文字命令建造主城区,或者《Wobble》创造出可以扭曲的卡通人物

用户可以在相应系统的应用商城下载AI测试厨房,并前往Google网站申请测试资格实际测试和审批速度相当快

我们在神经网络架构,机器学习算法和应用于机器学习的新硬件方法方面的进展,帮助AI为数十亿人解决了重要的实际问题,杰夫·迪恩说。

更多的进展即将到来我们今天分享的是对未来充满希望的愿景:人工智能正在让我们重新想象技术可以如何提供帮助

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精选 导读

大摩:苹果产量或超预期增长,预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出,苹果本季度iPhone产量可能超预期增长,因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间: 2021-12-23 17:04
行情   2021-12-23

中金:维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称,维持石四药集团“跑赢行业”评级,保持2021/22年归母净利润预测7.9/11.64亿元不变,目标价5.8港元。报告中称...

发布时间: 2021-12-23 17:03
行情   2021-12-23

实探中装建设元宇宙合作方鸿蒙时代:与华为无关已搬离注册地

12月22日,深交所对中装建设发布关注函,要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间: 2021-12-23 17:02
行情   2021-12-23

“疫”线女将:眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间: 2021-12-23 16:48
要闻   2021-12-23

联通网络智能运维产品研发招标:华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果,华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式,从故障感知到信...

发布时间: 2021-12-23 16:35
酷玩   2021-12-23

热点 推荐

小米12Pro自研智能动态刷新率演示视频公布:支持新技能“滑动变速”,更

今日上午,小米手机官方表示,小米自研智能动态刷新率,是第二代低功耗2K屏幕的创新体验,第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间: 2021-12-23 16:31
酷玩   2021-12-23

增速惊人!鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上,华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间: 2021-12-23 16:26
酷玩   2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑,婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求,他趣用户从线上延伸到线下,通过组织...

发布时间: 2021-12-23 14:59
机器人   2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日,2022中国信通院ICT+深度观察报告会隆重举办,京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间: 2021-12-23 14:56
机器人   2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140:新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验,并新增了桌面图标放大功能。更新包2修复...

发布时间: 2021-12-23 14:41
机器人   2021-12-23
bd9