实际上◈ღ,越来越多的AIGC应用都已经不是基于OpenAI的GPT◈ღ。在文娱领域◈ღ,歌手“AI孙燕姿”◈ღ、“AI周杰伦”的翻唱音乐爆火◈ღ,让歌手本人都叹服◈ღ;在电商领域◈ღ,AI虚拟人7x24小时念着AI生成的台本◈ღ,为企业卖出百万货物◈ღ;在特殊的课堂上◈ღ,虚拟教师根据语音内容输出手语课程◈ღ,助聋哑人学习知识……这些场景◈ღ,都成为企业自研大模型或开源模型的落地领域◈ღ。
据智东西统计◈ღ,截至5月中旬◈ღ,全球至少有百款具有代表性的AIGC工具落地应用◈ღ。从日常办公到社交媒体◈ღ,从游戏制作到平面设计◈ღ,从金融法规到产品销售◈ღ,AIGC工具的角色定位从以往的“观察+预判”升级为如今的“生成+决策”◈ღ,推动AIGC落地“奇点”初显◈ღ。
在文本写作领域◈ღ,以ChatGPT◈ღ、文心一言等对话聊天式机器人为首的AIGC工具节省了人们检索信息的时间成本◈ღ,以对话的方式就能完成一系列低效重复性工作◈ღ,其他写作类工具还包括Notion AI◈ღ、腾讯文涌◈ღ、WPS智能写作等◈ღ。
在图像生成领域◈ღ,AIGC也颠覆并重塑了以往的绘图方式◈ღ,“以文生图”为创作者提供了风格迥异◈ღ、源源不断的灵感来源◈ღ,在设计领域已掀起一场生产力革命◈ღ。比如Midjourney◈ღ、DALL-E等工具◈ღ,不断扩展人们想象力的边界◈ღ。
在音视频领域◈ღ,AI通过对海量源数据进行分析◈ღ,能按照预设风格生成音频◈ღ、视频◈ღ,既缩短了创作周期◈ღ,也突破了物理空间和时间的限制◈ღ。常用工具包括讯飞听见◈ღ、MusicLM◈ღ、Runway Gen-2等◈ღ。
除以上应用场景之外◈ღ,还有更为细分的协同办公◈ღ、语言学习◈ღ、电商直播◈ღ、编程◈ღ、数字人虚拟偶像等场景◈ღ,都能借助于AIGC技术wepoker官网中文版◈ღ,从技术层面以低边际成本◈ღ、高效率的方式满足用户的个性化需求◈ღ。
更值得一提的是◈ღ,在钓鱼信息不断涌现◈ღ、虚假新闻充斥版面的当下◈ღ,为了将AIGC内容与真实内容区分开来◈ღ,网易◈ღ、人民网相继推出了AIGC内容检测工具来对内容风险加以控制◈ღ。国外也有AIGC内容检测相关工具◈ღ,如专攻文本抄袭检测Copyleaks◈ღ、论文查重助手DetectGPT等◈ღ。
本文分别从七大板块解读了100余款AIGC工具◈ღ,并附网页链接◈ღ,帮助使用者提高工作生产力◈ღ。实际上◈ღ,国内外的AIGC工具每天都如雨后春笋般出现◈ღ,因此本文收录的100款AIGC工具并未完全覆盖产业◈ღ,但求在类别和方向上为产业提供一定参考◈ღ。
文本生成是AIGC最先实现商业落地的技术之一◈ღ,也是AIGC发展至今最成熟的一项技术◈ღ。如今◈ღ,AI写作工具无论是在上下文的理解能力◈ღ、对常识性知识的抓取能力◈ღ、对长篇幅文本的生成能力◈ღ,还是在生成内容的完整性◈ღ、准确性◈ღ、逻辑性上都有了质的飞跃◈ღ。
一是应用型文本生成◈ღ,如据意查句◈ღ、反向词典等◈ღ,有较为明确的功能使用场景◈ღ,使用指向性也较为明确◈ღ。二是创作型文本生成◈ღ,如Notion AI◈ღ、WPS智能写作等◈ღ,可以用于文本续写◈ღ、内容生成等◈ღ,大多为非结构化写作◈ღ,用户有更大的文本创作空间和自由度◈ღ。三是对话型文本生成◈ღ,如文心一言◈ღ、通义千问◈ღ、讯飞星火等◈ღ,具备高交互性的同时对大模型的自然语言理解能力要求也更高◈ღ。
Notion AI是一款写作助手◈ღ,主要功能包括写作◈ღ、编辑◈ღ、总结等◈ღ,可以自动生成博客文章◈ღ、会议日程◈ღ、社交媒体文案◈ღ、新闻稿◈ღ、销售邮件以及诗歌等满足不同场景需求的文字内容◈ღ。用户可以让Notion AI处理某篇文章的初稿◈ღ,借其获得更多的写作思路◈ღ;或是将它当作一个编辑器◈ღ,检查拼写◈ღ、语法◈ღ、翻译上的错误◈ღ。
该工具目前采取“免费试用+付费”模式◈ღ,为每位新用户提供20次免费试用机会◈ღ,次数使用完后则需要购买服务◈ღ,价格为10美元/人/月◈ღ,折合约68.9元◈ღ。
文心一言是百度开发的一款聊天机器人◈ღ,主要功能包括与用户对话互动◈ღ、回答问题◈ღ、协助创作等◈ღ,帮助用户获取信息◈ღ、知识和创作灵感◈ღ,使用场景包括有文学创作◈ღ、商业文案写作◈ღ、数理推算◈ღ、中文解释◈ღ、多模态生成等◈ღ。
目前◈ღ,通义千问主要功能包括文案创作◈ღ、对话聊天◈ღ、知识问答◈ღ、逻辑推理◈ღ、代码编写◈ღ、文本摘要以及图像视频理解服务◈ღ。
讯飞星火是科大讯飞在5月6日推出的一款大模型◈ღ,具备文本生成◈ღ、语言理解◈ღ、知识问答◈ღ、逻辑推理◈ღ、数学◈ღ、代码◈ღ、多模态这七大维度能力◈ღ,经测评对比发现其在语言理解和数学能力上的表现已经优于ChatGPT◈ღ。
讯飞星火可以完成多风格◈ღ、多语言◈ღ、多任务的长文本生成◈ღ,还能对英文文案进行语法检测和纠错◈ღ,在语言理解能力上不输国内可测的现有系统◈ღ。
AI公司出门问问推出的大语言模型“序列猴子”◈ღ,其能力体系以语言为核心◈ღ,涵盖“知识◈ღ、对话◈ღ、数学◈ღ、逻辑◈ღ、推理◈ღ、规划”六个维度◈ღ,能够同时支持文字生成◈ღ、图片生成◈ღ、3D内容生成◈ღ、语音生成和语音识别等不同任务◈ღ。
序列猴子已经有了一定的自然语言理解◈ღ、知识◈ღ、逻辑以及推理等能力◈ღ,对于“湖南和湖北哪一个省会的人口更多?”“天猫背后的公司的创始人本科毕业于哪个学校?”等这类需要进一步思考的问题◈ღ,它已经能够快速给出准确结果◈ღ。
文涌Effidit(Efficient and Intelligent Editing)是由腾讯AI Lab研发的智能写作助手◈ღ,利用AI技术来辅助写作者发散思路◈ღ、丰富表达◈ღ,并提升文本编辑和写作的效率◈ღ,所具备的功能包括有智能纠错◈ღ、文本补全◈ღ、文本改写◈ღ、文本扩写◈ღ、词语推荐◈ღ、句子推荐◈ღ、生成等功能◈ღ。
据意查句是清华大学研究团队研发的一款文案处理工具◈ღ,利用最前沿的AI和自然语言处理(NLP)技术◈ღ,帮助人们更加方便◈ღ、快捷地处理阅读◈ღ、写作◈ღ、文案搜索◈ღ、查找名人名言等◈ღ。
反向词典和据意查句同属清华研究团队研发◈ღ,能通过已给出词语能帮助找到的更加贴切◈ღ、生动的近义词◈ღ,还支持中英双语同译和互译◈ღ。
息流是一款专注于为小型组织和个人提供服务的知识管理和协同办公软件◈ღ,将写作文档◈ღ、知识存储◈ღ、多维表格◈ღ、思维导图等多种功能集成到一个平台上◈ღ,其用户以高校学生群体为主◈ღ,占比超过总用户人数的1/3◈ღ。
息流与目前也已与ChatGPT进行了适配◈ღ,用户可以使用FlowUS AI来根据自身需求实现写作◈ღ、续写◈ღ、翻译◈ღ、润色等功能◈ღ。
WPS智能写作是金山办公推出的一款帮助用户高效创作的智能写作产品◈ღ,主要包括四大功能◈ღ:文本自动生成◈ღ、辅助初稿写作◈ღ、句子智能补写◈ღ、文本智能校对◈ღ。
其文本数据和相关信息来源于权威媒体和政府公开网站◈ღ,题材覆盖讲话◈ღ、总结◈ღ、计划◈ღ、新闻等多种写作场景◈ღ,并与金山文档打通◈ღ,可实现文本云端同步上传◈ღ,用户在线写作后可以转到金山文档进行更加专业的排版等文档编辑◈ღ。
英文拼写检查工具Grammarly也推出了AI服务GrammarlyGo◈ღ,它可以根据用户输入的关键词提示来生成邮件草稿◈ღ,或是帮现有文章更换语气与文字风格wepoker官网登录◈ღ!◈ღ、调整文章的长度等◈ღ,并为主题写作起草大纲◈ღ。
火山写作是字节跳动推出的一款写作助手◈ღ,目前已支持全文润色的AI智能写作服务◈ღ,无论是修改论文◈ღ、润色简历◈ღ,还是写留学申请文书◈ღ、撰写自媒体文案等20多种写作场景◈ღ,火山写作都能覆盖◈ღ。
用户输入想要润色◈ღ、修改的文本内容◈ღ,点击“一键优化”之后◈ღ,它就能自动识别文本类型◈ღ、风格以及写作目的◈ღ,用户还能调整想要修改的幅度◈ღ,平台就能基于原文一键输出英文改写结果◈ღ,还支持智能纠错◈ღ、多样改写等AI功能◈ღ,使语言表达更加地道◈ღ、简洁◈ღ。
知士问答是一款基于AI技术的智能问答系统◈ღ,用户可以在知士问答平台上输入问题◈ღ,系统会自动分析问题并给出最佳答案◈ღ。同时◈ღ,它也提供了多种交互方式◈ღ,包括文字输入◈ღ、语音输入等◈ღ,以满足不同用户的需求◈ღ。
除了以上这些较为熟悉的AIGC写作工具外微扑克app◈ღ。◈ღ,还有不少“冷门产品”有待用户体验◈ღ,如Friday AI写作助手◈ღ、爱改写◈ღ、Claude◈ღ、创作王◈ღ、秘塔写作猫◈ღ、Subtxt◈ღ、Writesonic等等◈ღ。
2022年可以说是“AI绘画元年”◈ღ,多款AI作画工具在文字提示的帮助下展示出了良好的图像理解与生成能力◈ღ。
在GPT-4的助力之下◈ღ,“文生图”领域也掀起了新一波竞赛浪潮◈ღ。更迭到V5版本的Midjourney凭借一组情侣写真火爆全网◈ღ,设计行业龙头Adobe也不甘落后◈ღ,火速推出“萤火虫(Adobe Firefly)”来一较高低◈ღ,其一键修图◈ღ、分层修改等功能造福了广大设计工作者◈ღ。如今的AI图像工具无论在商业化还是艺术化上较之去年都更为成熟◈ღ、风格也更为多变◈ღ。
一是图像生成◈ღ。以Midjourney◈ღ、Stable Diffusion◈ღ、DALL-E 2等为代表的产品主要聚焦于从端到端的图像生成◈ღ,能基于一段文本描述或是草图生成一张具有指定风格的完整图像◈ღ,底层技术逻辑明确◈ღ,能为创作者提供一定的灵感来源与创作参考◈ღ。
二是图像编辑◈ღ。主要功能包括有图片智能去水印◈ღ、设置风格滤镜◈ღ、修改图像风格或是提升图片清晰度等◈ღ,以Imagen AI◈ღ、创客贴AI画匠等产品为代表◈ღ。
三是图像局部修改◈ღ,代表产品为Adobe Firefly◈ღ。它的主要优势聚焦于更改图像的部分要素◈ღ,或是按照图层来逐层修改调整◈ღ,适合于二次创作或是后期的作品完善环节◈ღ。
Disco Diffusion是一个运行在谷歌云端电脑(Google Colab)上的作图程序◈ღ,拥有谷歌账号的用户可以直接在浏览器上运行◈ღ,但需要用户掌握一定的代码知识◈ღ。
用户通过输入一段描述语句◈ღ,该程序就能自动渲染生成对应场景的图片◈ღ,它更擅长生成风格偏梦境感的抽象画面◈ღ,在写实风格的具象生成和输入较多文本描述时效果一般◈ღ。
Midjourney是由Disco Diffusion的作者之一推出的一款AI绘画聊天机器人◈ღ,搭载在Discord上◈ღ。在GPT-4推出之后◈ღ,它也快速更迭到了V5版本◈ღ。新版本在图像的逼真度◈ღ、细节处理上更加精细◈ღ,商业化水准更高◈ღ,近乎达到了可以“以假乱真”的地步雏形明子◈ღ。
之前的版本中◈ღ,生成图片的风格多以卡通或是超现实为主◈ღ,少有写实风格的图片◈ღ,更新到V5版本之后的Midjourney凭借一组真假难辨的情侣写真迅速出圈◈ღ,已经达到了电影的质感◈ღ,在手部特写◈ღ、眼部特写◈ღ、光影处理方面更加逼真◈ღ。
此外◈ღ,Midjourney V5中用户可以自定义长宽比◈ღ,在输入描述文本时也需要更加详细的形容词和情绪◈ღ、风格◈ღ、明暗等图像细节◈ღ,这要求用户对于图像有更主动的把控力和更明确的想象空间◈ღ。
相较之前的版本◈ღ,新版的SD-XL用户只需使用较短的描述性Prompt就能生成图像◈ღ,图像的人体结构◈ღ、细节处理也更符合现实◈ღ、更符合大众审美◈ღ,生成的肖像图也更加清晰逼真◈ღ。
DALL-E 2是OpenAI公司推出的一款图像生成与编辑工具◈ღ,以优秀的生成效果和艺术色彩著称◈ღ。用户只需输入简短的Prompt◈ღ,它就能综合概念◈ღ、属性和风格三个要素◈ღ,给用户生成出一张符合需求的现实主义图像◈ღ,同时还能具备不同艺术家的绘画风格◈ღ。
比如◈ღ,用户输入概念“一只小狗”◈ღ、属性“在草地上”和风格“波普艺术家安迪·沃霍尔风格”三个要素◈ღ,它就能生出符合这三个条件的图片◈ღ。该工具的功能还包括图像编辑◈ღ、风格变体等◈ღ。
Imagen AI是谷歌开发的一款文本转图像的AI工具◈ღ,可根据用户的书面提示输出人像照片◈ღ、油画◈ღ、CGI渲染等图像◈ღ,其图像真实感更强◈ღ,对于语言理解的准确性也更高◈ღ。
Adobe Firefly是Adobe联合英伟达推出的一款AI绘图工具◈ღ,目前已实现文本生成图片◈ღ、草图转换成画面◈ღ、一键修改画面内容等功能◈ღ,还可以对自动生成的图片进行分层修改◈ღ,输出超高分辨率的图像.
文心一格是百度旗下一款依托于飞桨◈ღ、文心大模型技术推出的AI作画产品◈ღ。用户只需输入自己的创意文字◈ღ,并选择好期望的图片风格◈ღ,就能获取一张由文心一格生成的画作◈ღ,还可以自行选择画面类型◈ღ、图片比例◈ღ、单次生成的图片数量等◈ღ。目前◈ღ,文心一格已支持如油画◈ღ、水彩◈ღ、动漫◈ღ、写实等十余种不同风格图像◈ღ。
鹿班是由阿里巴巴智能设计实验室自主研发的一款图像设计产品◈ღ。基于AI图像生成技术◈ღ,鹿班可以在短时间内完成大量Banner图◈ღ、海报图和会场图的设计◈ღ。用户只需任意输入想达成的风格◈ღ、尺寸◈ღ,鹿班就能代替人工完成素材分析◈ღ、抠图◈ღ、配色等耗时耗力的设计项目◈ღ,实时生成多套符合要求的设计解决方案◈ღ。
在2017年“双11”大促中◈ღ,鹿班每秒生成8000张海报◈ღ,期间共生出4亿张产品海报◈ღ,刷新了人们对AI作图能力的认知◈ღ。
创业设计平台创客贴推出了人工智能绘画产品AI画匠◈ღ,并上线“文生图”和“图生漫”两大常用功能场景◈ღ。
在“文生图”场景下◈ღ,用户只需输入简单的需求文本◈ღ,选择好自己想要的绘画风格◈ღ,就能一键生成目标图像◈ღ,现有风格包括古风◈ღ、油画◈ღ、彩绘◈ღ、漫画◈ღ、CG等◈ღ。
在“图生漫”场景下◈ღ,用户仅需上传目标图片wepoker官网中文版◈ღ,并输入简单的文字指引就能得到一张定制化的手绘图片◈ღ,其功能还包含边缘检测◈ღ、线种功能◈ღ。
除了文本◈ღ、图像等应用场景之外◈ღ,音频也是我们会在日常生活中接触面较广的应用场景微扑克◈ღ!◈ღ。短视频中的人声变音◈ღ、语音合成◈ღ,以及克隆等都是AIGC在音频领域的热门研究技术◈ღ,还包括动画◈ღ、电影◈ღ、游戏中的人物配音工作等如今都可以由AI来完成◈ღ。微软◈ღ、谷歌等科技公司也都推出了自己的Text-to-Speech(文本转语音)服务◈ღ。
AI音频工具按照功能属性的不同可划分为两种◈ღ:一是以So-Vits-Svc◈ღ、Adobe Podcast AI Voice◈ღ、魔音工坊等为代表的声音处理工具◈ღ,通过AI技术来修音◈ღ、提高音频质量或是转换音色等◈ღ;二是以MusicLM◈ღ、网易天音◈ღ、Aiva等代表的音乐制作工具◈ღ,可实现更加细分领域的“文本转音乐”功能◈ღ。
“AI孙燕姿”一夜之间火爆全网◈ღ,由她“翻唱”的《发如雪》《下雨天》等歌曲在哔哩哔哩中播放量破百万◈ღ,而这些歌曲正是由UP主们通过开源项目So-Vits-Svc制作而成◈ღ。
这款模型使用SoftVC内容编码器来提取真人歌手的源音频语音特征◈ღ,然后将其传输进VITS语音合成模型当中◈ღ,让歌手原声被保留下来◈ღ。类似的“AI歌手”还有AI周杰伦◈ღ、AI许嵩雏形明子◈ღ、AI王心凌等◈ღ。
除了模拟知名的歌手嗓音之外◈ღ,还能基于电话录音◈ღ、录像视频等素材来模拟大量真人声音◈ღ,之前也有UP主利用该模型与逝者进行对话◈ღ。但由于该项目被越来越多人滥用◈ღ,作者已删除了项目◈ღ。
Adobe Podcast AI Voice是Adobe推出的一款由AI驱动的音频增强器◈ღ,能利用AI来提高博客音频录制的质量◈ღ。
用户在登录Adobe帐号之后雏形明子◈ღ,上传好需要进行降噪处理的音频文件◈ღ,AI便会自动处理音频文件◈ღ,达到满意的音频播放效果之后◈ღ,用户就能直接下载到电脑上自由使用◈ღ。
MusicLM是谷歌发布的一款全真生成式AI模型◈ღ,通过该模型◈ღ,可以由文字直接生成高保真度的音乐◈ღ。除了文字之外◈ღ,无论是哼唱◈ღ、演唱◈ღ、敲击◈ღ、乐器演奏等◈ღ,MusicLM都可以在这些既有旋律上创建音乐◈ღ,并保证音乐不失真◈ღ。
其最大亮点在于根据一到两个提示词就能生成一段5分钟的完整曲目◈ღ,风格多样◈ღ,包括电子乐◈ღ、爵士乐◈ღ、蓝调◈ღ、Pop等◈ღ。歌曲长度也可提前设定好◈ღ,比如一首5分钟的完整曲目或是一个十几秒的哼唱片段◈ღ。
此外◈ღ,它还能生成由特定的乐器演奏的曲段◈ღ,连演奏者的演奏水平高低也可以设定◈ღ,还能根据时代特色◈ღ、演奏地点等创作音乐◈ღ,例如用户可以输入“具有90年代风格的wepoker官网中文版◈ღ、由管风琴在海边演奏的流行音乐”◈ღ。
MusicLM在长达28万个小时的音乐数据库中训练出来◈ღ,无论是何种风格◈ღ、情感的歌曲对它而言都不在话下◈ღ。
讯飞听见是科大讯飞旗下的一款智能语音产品◈ღ,依托于科大讯飞的自然语言处理◈ღ、声纹识别和语音识别等语音技术◈ღ,讯飞听见可满足用户在多种场景下的语音需求◈ღ,适用场景涵盖会议记录◈ღ、授课演讲◈ღ、媒体访谈◈ღ、个人写作等不同场合◈ღ。
其优势功能还包括为视频添加双语字幕◈ღ、多语种同传翻译◈ღ、为视频会议生成字幕等◈ღ,帮助用户跨越语言障碍◈ღ,方便沟通协作◈ღ。
网易天音是网易出品的一款AI编曲音乐创作系统◈ღ,能进行AI音乐在线创作◈ღ。其最大优势在于音乐创作门槛低◈ღ,用户能在短时间内根据指引完成一首原创音乐的编曲◈ღ。
天音的工作台中包括了多个具体的音乐风格◈ღ,包括流行◈ღ、民谣◈ღ、电子◈ღ、国风等◈ღ,支持用户从零开始创作一组自己的和弦◈ღ,也支持将预设好的和弦拖进编辑段落当中◈ღ,对全曲进行增减◈ღ、复制◈ღ、调整段落等编辑◈ღ,全部编辑完成后会进行自动渲染◈ღ,稍微等待就能得到一首自己创作的原创编曲◈ღ。
魔音工坊是由AI公司出门问问推出的AI语音系列产品◈ღ,用户能够狗高效便捷地亿AI语音技术模拟出具有个人特色的真人语音◈ღ,进行AI音频内容创作◈ღ,让文字一键转换为真人语音◈ღ。
用户在界面中快速导入要合成声音的文章◈ღ,通过与文档类似的操作页面来进行在线编辑◈ღ,就能便捷实现文档转音频◈ღ。编辑页面中的功能包括有◈ღ:重音标注◈ღ,多音字◈ღ、易错字标注◈ღ,添加背景音◈ღ,多人混合配音◈ღ,变速◈ღ,韵律等多种不同的功能◈ღ。
对于喜欢科技◈ღ、财经等领域的用户◈ღ,魔音工坊还在后台中添加了多家相关企业CEO的AI声音模型◈ღ,让熟悉他们的用户能用他们的声音来制作音频内容◈ღ。
FakeYou是一个使用深度伪造技术生成不同语言和声音的文本到语音的音频剪辑工具◈ღ,用户可以使用自己喜欢的人物角色的声音来创建音频◈ღ,还提供了AI文本转语音功能◈ღ。
当用户输入一段想要生成的文字并选择好想要谁来念出这段文字◈ღ,再点击“说话”按键◈ღ,一段由目标人物“说”出的语音就自动生成出来了◈ღ。
LyricStudio是一款歌词在线制作工具◈ღ,能帮助用户生成一篇模仿自己的风格的原创歌词◈ღ,还能为某个特定词汇找到韵脚◈ღ。用户可以上传一段文本描述或是音乐片段◈ღ,它就能将其转换为与内容相符的歌词◈ღ。
据其官网数据显示◈ღ,该工具目前已经协作完成了100多万首歌曲的创作◈ღ,平台中15%的用户是专业的音乐制作人◈ღ。说唱歌手Curtiss King在iTunes排行榜上排名第一的专辑歌词就是由LyricStudio协助完成的◈ღ。
其在线音乐分离技术完全基于机器学习和人工智能◈ღ,在之前的版本之前还只能分割人声◈ღ,目前已能做到从音视频文件中精确提取出人声◈ღ、电吉他◈ღ、原声吉他◈ღ、钢琴◈ღ、鼓◈ღ、贝斯等多种乐器的音轨◈ღ。
Aiva是AI音乐公司“Aiva”自研的同名AI音乐工具◈ღ,用户能通过AI技术辅助音乐人制作◈ღ、编写原创音乐◈ღ,平台覆盖多种不同风格◈ღ,比如古典◈ღ、摇滚◈ღ、电音◈ღ、流行◈ღ、国风◈ღ、蓝调◈ღ、嘻哈等◈ღ。在自动作曲页面◈ღ,有11种曲风可供用户选择◈ღ,还包括Key Signature曲调◈ღ、Time Signature节拍◈ღ、Pacing速率◈ღ、Instrumentation乐器◈ღ、Duration时长等◈ღ。
Aiva还通过深度学习◈ღ,对莫扎特◈ღ、巴赫◈ღ、贝多芬等多位音乐家的代表作品◈ღ、音乐风格进行了学习◈ღ,基于这些音乐特征建立了学习模型◈ღ,从而帮助音乐人创作出乐曲◈ღ。同时◈ღ,Aiva也是史上第一位被认证的AI作曲家◈ღ,曾发表过5张专辑◈ღ。
Supertone是一家韩国的AI创意声音工作室◈ღ,提供语音合成和实时语音增强技术◈ღ,帮助用户轻松创建各种类型的声音内容◈ღ,包括简单的文本阅读到艺术作品◈ღ、歌曲等◈ღ,可以让用户通过变声等方式来减轻对个人信息问题的担忧◈ღ。
Supertone还提供了一种被称为“VoicePrint”的技术◈ღ,可以将用户的语音转换为数字指纹◈ღ,以此与其他用户的声音区别开来◈ღ。
纽约的AI初创公司Runway开发出一款生成视频模型Gen-2◈ღ,可以通过一句简单的描述生成一个高度复合的视频◈ღ。其他公司也纷纷加入其中◈ღ,如图像编辑平台美易PiscArt推出的的Text2Video-Zero◈ღ、Video-P2P和TemporalNet◈ღ,以及阿里研发的Text-to-video等◈ღ,文本生成视频在不久后或许也将进入竞争白热化阶段◈ღ。
Deepfakes(深度伪造)如今已成为AI合成视频的代名词◈ღ。微软推出FaceShifter◈ღ,可以将一张模糊不清的原始图像处理后成为清晰可信的伪造画面◈ღ;迪士尼与苏黎世联邦理工大学联合研发推出了百万像素级Deepfakes视频制作工具◈ღ,并在《星球大战》系列电影中◈ღ,利用Deepfakes让已故演员重返大荧幕◈ღ。
但由此引发的安全隐患也接踵而来◈ღ,对于一些高清且光线极为自然的视频◈ღ,甚至连再精密的Deppfakes算法都无法准确识别出来◈ღ。
于是早在2020年美国大选时◈ღ,Facebook就已宣布平台全面禁止使用Deepfakes◈ღ,YouTube◈ღ、TikTok也不例外◈ღ,明确禁止在视频中违规使用Deepfakes技术◈ღ。我国2021年开始实施的《民法典》中也指出◈ღ,各大视频平台需要对AI换脸视频内容进行严格限制◈ღ,不得在未经允许的情况下随意使用◈ღ。
Gen-2是初创公司Runway推出的一款从端到端的Transformer模型◈ღ,用户能以图片和文字为条件◈ღ,从零开始生成一个原创的慢风格视频◈ღ。
它所生成的视频分辨率高达1280×720◈ღ,时长约为30-60秒雏形明子◈ღ,目前可以实现以下几种功能◈ღ:生成视频◈ღ、生成图像◈ღ、根据文字提示无限制扩展图像◈ღ、混合图像风格◈ღ、训练AI模型◈ღ、删除视频中的某个元素◈ღ、扣除背景等◈ღ。
近日◈ღ,Runway推出了其第一款手机应用程序◈ღ,利用Gen-1模型◈ღ,用户可以在手机端上传文本◈ღ、图片或是视频◈ღ,让模型根据内容来转换视频的风格◈ღ。
2022年9月◈ღ,Meta就推出了自家的文本转视频软件“Make-A-Video”◈ღ,用户输入几个简单的单词描述之后◈ღ,软件就会制作出一段无声的视频◈ღ。
在官方的演示视频中◈ღ,用户输入“一对年轻夫妇在大雨中行走”“一直正在画肖像的泰迪熊”等文本描述◈ღ,就能得到一段几秒钟的视频◈ღ。此外wepoker官网中文版◈ღ,Make-A-Video还能将静态的图片动画化◈ღ,这种能力基于“文生图”技术之上◈ღ。
官方称◈ღ,模型采用图像合成数据和未经标记的视频来进行训练◈ღ,模型在学习之后能够“预测”图像接下来会发生什么◈ღ、移动到哪个位置◈ღ,并在极短的时间内移动到图像将会出现的位置◈ღ,以此构成一个短视频◈ღ。
商汤科技推出了商汤智广一站式广告营销平台◈ღ,其中包括短视频创作引擎“商汤智影”◈ღ,该工具可一键生成创意短视频◈ღ,包括脚本生成◈ღ、背景替换◈ღ、横竖屏替换◈ღ、生成字幕等短视频广告生产的多种服务◈ღ,能帮助广告主节约广告内容制作成本◈ღ。
商汤智影中包括的“视频元素分析”服务◈ღ,能够通过AI视频结构化技术◈ღ,对短视频中每一个镜头的长度◈ღ、景别◈ღ、场景◈ღ、人物◈ღ、道具以及台词等信息进行分析和提取◈ღ,并自动创作一个分镜头脚本◈ღ,大大减少了脚本撰写的时间◈ღ,有效辅助创作者进行二次创作◈ღ。
“腾讯智影”主要面向短视频创作者◈ღ,其特色功能为正版版权素材和数字人播报◈ღ。用户可以通过上传照片和文本◈ღ,生成一段数字人视频◈ღ。用户还可搭配智能AI配音功能来使用◈ღ,为数字人选择不同的音色◈ღ。
金山办公作为国内协同办公领域的龙头企业◈ღ,也在短短一个月后推出了具备大语言模型能力的生成式办公平台“WPS AI”◈ღ,成为国内协同办公赛道的首个类ChatGPT应用◈ღ。此外◈ღ,百度◈ღ、字节跳动◈ღ、钉钉等企业也接续推出自家的AI协同办公工具◈ღ。
OA(办公自动化Office Automation)应用系统如今逐步发展成熟◈ღ,它作为连接员工和企业的桥梁◈ღ,未来或将成为大语言模型在B端生态的入口◈ღ。
除了协同办公领域之外◈ღ,AI工具还可应用更多垂直化场景中◈ღ,与更多实际需求相结合◈ღ,如“AI+语言学习”就有了DuolinguoMax◈ღ,“AI+电商带货”诞生出智能版电商网站Shopify◈ღ、电商营销工具eCommerce Prompts等◈ღ,“AI+编程”则让GitHub Copilot X成为开发者们的得力助手◈ღ,“AI+思维导图”则有了能用一句描述生成一幅思维导图的Chatmind◈ღ。
在Word中◈ღ,Copilot只需要一句简单提示就能创建出一个初稿◈ღ,还能根据用户的需要来调整的文章的语气◈ღ,比如专业严肃的◈ღ、热情随意的等◈ღ,还能自动删去文章中一样的地方◈ღ,进行进一步简化◈ღ。
Excel中的Copillot可以帮助用户分析数据◈ღ,能直接进行数据趋势分析并将数据分析结果可视化◈ღ。
更神奇的是◈ღ,Powerpoint已经能直接生成一份PPT了◈ღ,Copilot能将一份已有的文档直接转换为包含标记资料来源的PPT◈ღ。如果用户觉得PPT太冗长◈ღ,也能直接用文本描述来一键压缩◈ღ、调整布局或是格式化文本◈ღ。
Outlook中的Copilot可以帮用户按照一定依据来分类邮件◈ღ,总结提炼长邮件中的主题◈ღ,将几个关键词或是草稿转写为正式邮件◈ღ。
Google Workspace是包括Docs◈ღ、Slides◈ღ、Sheet和Gmail等办公工具在内的谷歌工作台◈ღ,谷歌在3月时宣布将AI集成到这些工具组件当中◈ღ。在接入生成式AI模型之后◈ღ,用户将能通过输入简短的文本描述◈ღ,在这些工具帮助之下创建一份内容完整的电子邮件◈ღ、商业计划书或是广告营销费用表等◈ღ。
在Docs中◈ღ,生成式AI可以帮助用户起草文本初稿◈ღ、文字润色修改◈ღ、校对纠错◈ღ;Gmail能对邮件进行回复总结◈ღ、重要事项标注等◈ღ;Slides可以根据主题自动生成图像◈ღ、音视频插入到模板当中◈ღ;Sheet能自动进行数据处理◈ღ、表格整理◈ღ、上下文分类◈ღ,甚至是原始数据分析等工作◈ღ。
目前◈ღ,谷歌采用弹性付费方案◈ღ,分为基础的商务新手版◈ღ、商务标准版和商务Plus版◈ღ,允许用户根据自己的实际需求来进行订阅◈ღ。
百度如流在去年年底推出了面向企业服务市场的“如流智能工作平台2.0”◈ღ,包括了智能知识管理◈ღ、智能会议◈ღ、智能工作台三大智能化产品矩阵◈ღ。
在智能知识管理中◈ღ,包含有“智能知识库”◈ღ、“搜索推荐双引擎”和“知识星链”三大知识管理应用◈ღ,把散落在各处的文档◈ღ、邮件◈ღ、笔记等文件集合在一处◈ღ,员工能以最便捷的方式搜寻到所需的文件和知识◈ღ。
智能会议则把员工◈ღ、空间和设备智能化连接起来◈ღ。会前◈ღ,如流会议助手能帮忙查看参会人时间安排◈ღ、预约最佳会议时间◈ღ、发送参会资料◈ღ;会中◈ღ,如流助手能记录参会者发言并实时语音转文字◈ღ,标记重点信息◈ღ;会后◈ღ,会议助手会自动生成会议待办◈ღ,方便员工回溯会议重点◈ღ。
智能工作台中集合了不同的工作卡◈ღ,让任务系统变得更加灵活清晰◈ღ,还根据不同岗位员工匹配了不同的工作卡◈ღ。比如◈ღ,HR工作台中嵌入了面试助手◈ღ、招聘管理等模块工作卡◈ღ;管理者工作台中包括效率跟踪◈ღ、协同分析◈ღ、流程管理三个维度的工作卡◈ღ,为管理者提供团队任务数据wepoker官网中文版◈ღ。
在通义千问大模型面世的一周之后◈ღ,钉钉宣布正式接入◈ღ。接入千问大模型之后◈ღ,用户只需要用一根“/”斜杠就能进行智能化办公◈ღ。主要的使用场景包括群聊◈ღ、文档◈ღ、视频会议和小程序开发◈ღ。
在群聊中◈ღ,新加入者只用在对话框中输入“/”就能得到群聊上下文要点◈ღ,斜杠还能对重要会议生成待办事项◈ღ、预约日程◈ღ、制作表情包等◈ღ。
在文档中◈ღ,斜杠能自动生成各种风格的文案◈ღ、海报◈ღ;视频会议中◈ღ,斜杠能一键总结会议要点◈ღ、待办事项等◈ღ。
在钉钉宣布接入大模型◈ღ、上线智能办公助手“/”的同一日◈ღ,国内办公软件龙头企业金山办公也官宣了“WPS AI”的问世◈ღ。其底层大模型由MiniMax提供◈ღ,目前包括内容生成◈ღ、多轮对话◈ღ、内容优化等多种功能◈ღ,未来有可能进化为国内版“Microsoft 365 Coplilot”◈ღ,全面嵌入到WPS套件当中◈ღ。
4月11日◈ღ,字节跳动旗下办公平台飞书也推出了智能AI助手“My AI”◈ღ。其功能包括自动总结会议纪要◈ღ、创建报告◈ღ、续写并优化文字内容等◈ღ,在飞书中◈ღ,My AI也能通过对话形式帮助用户来创建日程◈ღ、搜索公司内部知识库等◈ღ。但目前My AI仍在推进中◈ღ,公测及上线时间仍未公布◈ღ。
3月1日◈ღ,ChatGPT宣布开放API之后◈ღ,跨境电商服务平台Shopify率先集成◈ღ。集成ChatGPT后的Shopify能用智能客服与用户进行沟通◈ღ,帮助消费者进行个性化推荐◈ღ、节省购买时间◈ღ;ChatGPT还为平台商品进行评论数据分析◈ღ、标题以及关键词优化◈ღ、营销文案撰写◈ღ、网站智能开发编程等多项功能wepoker官网中文版◈ღ,帮助提升电商网站运营效率和优化消费者购买体验◈ღ。
在微软推出新版Bing搜索引擎◈ღ、Edge浏览器和Office全家桶之后◈ღ,旗下代码托管平台GitHub也发布了Copilot X◈ღ,将ChatGPT引入集成开发环境当中◈ღ,即使是零代码基础的用户也能靠“动动嘴”写出代码◈ღ。
在GitHub Copilot Chat当中◈ღ,用户可以在一个聊天窗口中给它发出写代码的指令◈ღ,对于那些运行异常的代码◈ღ,它能直接找到Bug(错误)所在并进行修改◈ღ;在GitHub Copilot Voice中◈ღ,甚至能实现从语音到代码一步到位◈ღ,开发者直接说话给出自然语言指令◈ღ,它就能生成相关代码◈ღ。
除了以上功能之外◈ღ,如果用户对某一行代码存在不懂的地方◈ღ,只需在Chat中让Copilot来解释代码的作用◈ღ。
比如帮助每天为吃什么头疼的用户生成菜谱的ChefGPTwepoker◈ღ,◈ღ,为猎头们提供优质人才履历的AI招聘工具Dover Autopilot◈ღ,能一边看视频一边记笔记的BibiGPT◈ღ,能生成睡前小故事的Bedtime Story AI◈ღ,按照个人喜好进行推荐电影片单的WatchNow等◈ღ,全智能化生活已经不再是科幻片中才有的情节◈ღ,AI全面进入到我们的日常之中◈ღ。
视频太长无法总结关键点?边看视频边记笔记太匆忙?基于ChatGPT开发的音视频总结软件BibiGPT很好地解决了这些难题◈ღ,对于Bilibili◈ღ、Youtube上的视频◈ღ,BibiGPT可以一键总结关键内容◈ღ,用户只需要将自己访问的视频链接粘贴在搜索框上◈ღ,点击“一键总结”◈ღ,就能得到一份视频总结笔记◈ღ。
Dover Autopilot是一款自动化招聘工具◈ღ,招聘者只需输入简单的工作描述链接◈ღ,它就能通过LinkedIn等求职网站的数据源在几分钟之内找到与岗位需求相匹配的求职者◈ღ,还能自动生成针对候选人的个性化电子邮件◈ღ。
这是一款AI食谱推荐工具◈ღ,当用户输入手上现有的食材和工具◈ღ,以及预留的做饭时间◈ღ,它就能推荐出一款满足需求的食谱◈ღ。
页面中包含两种模式◈ღ,一是美食家模式◈ღ,二是全选模式◈ღ。美食家模式对于用户自主能力有更高的要求◈ღ,需要用户对食材和厨具进行挑选后再输入到网页中◈ღ,而全选模式则对“厨房小白”更为友好◈ღ,不用动脑就能得到一份符合实际需求的食谱◈ღ。
Journeai是一款基于AI的聊天旅行顾问◈ღ,旨在为用户创建个性化的旅行路线◈ღ,能根据用户喜好生成行程◈ღ,包括活动安排和旅游伙伴◈ღ,还附带谷歌地图导航功能◈ღ,用户可以在地图上进行实地探索◈ღ。
随着AIGC技术发展步入快车道◈ღ,也造成大量的虚假信息◈ღ、文本抄袭◈ღ、学术造假◈ღ、版权纠纷等不良影响与相关负面事件◈ღ。未知的安全争议无可回避◈ღ,这就需要开发出相关技术来进行检测和筛查◈ღ。
目前市面上已出现的AIGC内容检测工具虽然数量不多◈ღ,但已经可以对生成文本◈ღ、图片◈ღ、声音等AIGC内容进行精准区分◈ღ,比如已开始公测的国内首款AIGC内容检测工具AIGC-X◈ღ、国际反剽窃检测系统CrossCheck等◈ღ。
Copyleaks是目前全球最流行的AI内容检测工具之一◈ღ,最突出的优势就在于除了检测英文内容外◈ღ,还能检测西班牙语◈ღ、法语等其他语种编写的内容◈ღ。对于全篇都由AI生成的文本◈ღ,Copyleaks可以达到99.99%的识别准确度◈ღ,但对于真假参半的文本内容◈ღ,它会将其标记为人工生成文本◈ღ。
人民日报旗下专注于内容风控业务的人民网信息技术公司◈ღ,开发了国内首款AI生成内容检测工具AIGC-X◈ღ,该工具可以用来区分机器生成文本与人工生成文本◈ღ,能对AI技术生成的假新闻◈ღ、内容抄袭◈ღ、垃圾邮件等进行检测◈ღ、筛查◈ღ,尤其可以在虚假信息◈ღ、学术造假◈ღ、网络钓鱼等灰色领域提供技术支撑◈ღ。
这款检测工具提出了一种用于判别大语言模型生成文本的新指标◈ღ,它只用扫描上传到网页当中的内容就能判断文中是否有内容是使用大语言模型生成的◈ღ。
网易网盾基于网易公司多年的行业经验积累◈ღ,针对文本垃圾特点◈ღ,提供个性化匹配模型及定制检测方案◈ღ,支持检索多类型WePoker官网下载地址◈ღ。◈ღ、多语言垃圾文字及敏感词◈ღ、违禁变种等服务◈ღ,对于文本信息中包含为第三方导流的内容还会自动过滤筛除◈ღ。
数美利用全栈式智能内容识别引擎◈ღ,可以有效识别各类场景中敏感◈ღ、违禁◈ღ、色情◈ღ、暴恐◈ღ、辱骂◈ღ、广告导流等风险文本内容◈ღ,帮助用户进一步鉴别风险信息◈ღ。目前◈ღ,数美已经能自动检测175种海外语种◈ღ,支持英语◈ღ、阿语◈ღ、泰语◈ღ、印尼语等18种主流语种的风险标签识别◈ღ。
AIGC赛道挤得火热◈ღ,除了写作雏形明子◈ღ、图像生成◈ღ、影音编辑◈ღ、办公助手◈ღ、内容检测等以上几方面之外◈ღ,还有更多细分领域等待被开掘◈ღ。
如今◈ღ,AI正大步跨进数字内容生产领域◈ღ,除了在写作◈ღ、问答◈ღ、绘画◈ღ、百年城等方面能与专业人士媲美之外◈ღ,更是展示出了大语言模型的强大理解能力◈ღ。但它始终只能作为“Copilot(副驾驶/助手)”来协助人类作出决策◈ღ,辅助创作者持续生产◈ღ、迭代创意◈ღ,而不会取代那些真正具有价值性的工作◈ღ。
