2023:AI元年

AI 在 2023 年无疑掀起了轩然大波,这里我们重点介绍了该年最重要的故事,这些故事将塑造这个颇具创新性的行业的未来:

AI历程

在今年的 AI 进展中,取得了显著的进步,对现有技术进行了改进,而不是像前一年的 ChatGPT 或图像生成器那样引入了突破性的创新。虽然没有带来令人惊叹的效果,真正的人工通用智能(AGI)仍然遥不可及,但今年标志着先前突破和更强大的未来之间的中间阶段。为了展示这一演进过程,我们制作了一个视觉时间线,突出显示了塑造今年 AI 的最显著的进展:

图像生成
  • Adobe Firefly:Adobe 的 Firefly 和生成填充使多样化的视觉内容创作成为可能,包括插图、艺术概念和照片操作。集成到 Photoshop 中,Adobe Firefly 使 AI 的力量一下子赋予了广泛的用户基础。文本效果功能的发布也标志着一大步,允许用户对单词和短语应用样式或纹理。

  • Midjourney:Midjourney 的 V.5 模型标志着图像生成的一个里程碑,展示了提高的效率、一致性和更高的分辨率。最新的 alpha 版本,Midjourney V.6,带来了额外的增强,如更准确的提示跟随、增加的模型知识和轻微的文本绘制能力。

  • DALL·E 3:基于 ChatGPT,DALL·E 3 简化了图像生成,消除了对复杂提示工程的需求。此外,ChatGPT 还引入了一个功能,帮助用户改进提示并根据反馈进行图像调整。

  • Shutterstock.AI:这个库存图像巨头整合了 AI 功能,允许用户将提示转化为可许可的图像。Shutterstock 通过识别和奖励贡献的艺术家,迈出了道德 AI 的第一步。

    视频生成

  • Stability AI:Stability AI 推出了 Stable Video Diffusion,这是一款开创性的生成视频模型,通过 GitHub 对外开放。与 AI 图像生成趋势相类似,稳定视频扩散模型很可能在生成大部分 AI 视频中发挥关键作用。

  • HeyGen:这个 AI 初创公司推出了一个工具,用于语音克隆、调整视频中的嘴巴动作和语言翻译。

  • Runway Gen-2:Runway 推出了 Gen-2 模型,使用户能够轻松地通过文本提示、图像或其他视频生成完整的视频。只需看一下下面的示例。

  • Pika 和 Pika 1.0:在初次发布时,Pika 吸引了五十万用户,每周生成数百万个视频。然后,在 Pika 1.0 中升级的 AI 模型使用户能够以各种风格创建和编辑视频,包括 3D 动画、动漫、卡通和电影。

  • Codec avatars by Meta:Meta 的 3D 人脸像素编解码头像(PiCA)模型使我们更接近照片般逼真的遥感。

文本生成

  • Bard 和 Gemini:Google 的 Bard 在聊天机器人领域增加了类似人类的情感和情感。引入到 Bard 聊天机器人并在多模态数据集上进行训练的 Google 的 Gemini 成为“最有能力”的 AI 模型,是 OpenAI 的 ChatGPT 最接近的竞争对手。

  • Grok:埃隆·马斯克的初创公司 xAI 通过发布“Grok”表达了对 AI 开发的承诺,可能成为 OpenAI 的竞争对手。Grok 是一款具有幽默、叛逆性和通过 𝕏 平台实时知识的聊天机器人。xAI 承诺 Grok 设计用于回答其他 AI 系统拒绝回答的挑衅性问题。

  • OverflowAI:Stack Overflow 的 OverflowAI 增强了知识管理,使 Visual Studio Code 和 Slack 能够进行基于 AI 的搜索,以寻找相关的答案。

  • Llama 2:Meta 推出了 Llama 2,这是其开源大语言模型的下一代,展示了提高的效率。Meta 精调的大语言模型还针对对话用例进行了优化,在大多数基准测试中优于其他开源模型。

  • GPT-4:OpenAI 的 GPT-4 现在可以处理图像输入,生成字幕、分类,听到并在来回对话中回应,并支持实时网页浏览。OpenAI 还扩展了对插件的支持,丰富了开源竞争对手的领域。GPT-4 是 OpenAI 发展通用人工智能(AGI)征程的下一步。

  • Mistral 7B:Mistral AI 今年估值约为 20 亿美元,推出了 Mistral 7B,这是一款大型语言模型,挑战 GPT-4 和 Claude 2。Mistral AI 强调采用开放技术方法,提供其模型供免费下载。

  • Mixtral 8x7B:Mistral AI 还推出了 Mixtral 8x7B,这是一款高质量的稀疏专家模型混合(SMoE),具有开放权重,共有 467 亿个参数,开创了在模型中增强真实性和减少偏见的开放性。

  • Yi-34B llm:Kai-Fu Lee 的初创公司 01.AI 今年估值为 10 亿美元,推出了 Yi-34B —— 一款超越竞争模型的开源神经网络,参数数量显著更高,强调其成本效益。

    其他进展:

  • Segment Anything Model (SAM):Meta AI 推出了 SAM,这是一种分割模型,能够在图像中“切出”对象,而无需额外的训练,突显了其适应性。SAM 在大量数据集上进行了训练,展示了其在对象分割中的强大性能。

  • Direct Preference Optimization (DPO):DPO 成为对大规模无监督语言模型进行微调和教授文本到图像模型的稳定而高效的方法。它在不需要复杂的强化学习来自人类反馈(RLHF)的情况下实现了精确控制。

  • Zephyr Direct Distillation of LM Alignment:Zephyr-7B 是直接优化偏好(dDPO)的结果,设定了具有 70 亿参数的聊天模型的基准,增强了在不需要大量训练的情况下的意图对齐。

  • 自主 AI 代理:自主 AI 代理成为一个值得注意的趋势,展示了向先进和自主 AI 系统的转变。AI 代理被认为是通用人工智能(AGI)的第一瞥,因为它们可以生成基于用户目标的自主任务和指令,并自主地工作,直到目标实现。

  • EvoDiff:Microsoft 的 EvoDiff 是一个用于快速且节省成本的蛋白质生成的开源 AI 框架,承诺在治疗学和工业应用方面取得进展。

  • 稳定音频:Stability AI 推出了一款工具,可以从简单的文本提示生成短小的高质量音频片段。

  • GPT Store、Copyright Shield、ChatGPT Bot Constructor:OpenAI 推出了 GPT Store,以销售定制的 GPT 机器人,推出了 Cover legal costs related to copyright infringement claims 的 Copyright Shield,以及 ChatGPT 版本的无代码平台。

  • Stability AI 开源了其 LLM:Stability AI 开源了其模型 StableLM-Alpha 和 Stable Vicuna,以其在生成文本和代码方面的出色性能而闻名。Stable Vicuna 是第一个使用强化学习从人类反馈(RLHF)中训练的开源聊天机器人。此外,Stability AI 推出了 SDXL Turbo,一个实时文本到图像生成模型。

    合作伙伴关系

在充满活力的 2023 年,行业领军者之间涌现了一些重要的合作伙伴关系,塑造了未来的发展轨迹。以下是在 2023 年定义了人工智能领域的合并和合作伙伴关系:

Stability AI 和 Init ML

Stability AI 通过收购 ClipDrop 流行编辑应用背后的公司 Init ML 进行了一项重大举措。目标很明确:将 Stability AI 的先进技术整合到 ClipDrop 的生态系统中。这一合作已经导致了 SDXL Turbo 的开发。

Runway 和 Getty Images

Runway 与 Getty Images 强强联手,达成了战略合作伙伴关系,推出了新的视频生成模型 RGM(Runway 和 Getty Images 模型)。该模型结合了 Runway 的人工智能能力和 Getty Images 的授权创意内容库。此次合作旨在彻底改变内容创作工作流程,使公司能够生成符合其品牌形象的高质量定制视频。

  • Snowflake 和 Neeva
    作为数据仓库平台的主要参与者,Snowflake 收购了 Neeva,这是一家以使用生成式人工智能增强搜索体验而闻名的初创公司。Neeva 最近关闭了其基于订阅的无广告搜索引擎。Neeva 的创始人也承认了说服用户尝试新搜索引擎的挑战。

  • Shutterstock 和 OpenAI
    Shutterstock 和 OpenAI 承诺延长为期 6 年的合作伙伴关系。OpenAI 获得了来自 Shutterstock 的高质量数据的访问权限,用多样化的图像、视频和音乐库丰富其模型训练数据集。Shutterstock 继续利用 OpenAI 的技术,推动了 Shutterstock 的 AI 图像生成工具的推出。

    法律环境

在不断演变的人工智能法律领域,2023 年发现自己置身于一个充满不确定性和持续辩论的环境中。随着新挑战的出现,围绕版权、企业政策和更广泛的法规框架的讨论不断进行,塑造着人工智能法律环境的轮廓。以下是 2023 年最重要的法律问题:

欧洲人工智能法案

欧洲联盟引入了世界上第一部全面法律《人工智能法案》以规范人工智能的使用。该法案根据人工智能系统的风险对其进行分类,并相应制定了规定。尽管《人工智能法案》已经初步达成一致,但其实施面临延迟,执法将于 2025 年开始。

美国版权局对AI生成内容登记的立场

美国版权局采取果断立场,拒绝为由 AI 算法 Midjourney 创建的图像进行版权登记。这一拒绝树立了一个先例,强调了纯由 AI 创作的艺术品,没有人类参与,不符合版权保护的资格。在同一精神上,美国版权局发布了有关 AI 辅助作品的指导,澄清了通过使用 AI 工具由人类创作的作品可能有资格获得版权保护。该指导确认,由人类使用 AI 工具创建的作品应根据人类在创作这些作品的过程中的决定性作用进行评估。

“目前,由于人工智能学习自现有数据,其权利属于其他人,现行法律体系并不准备承认使用人工智能创建的作品的版权,这对所有权的归属提出了挑战。预计通过国家进行的调查,通过广泛公众参与促进明年解决这个问题。在没有更广泛的公众参与的情况下,独立解决这个问题现在变得困难。”

Everypixel公司的公司律师 Daria Kuznetsova

McKinsey 还发布了一份详尽的图表,概括了 2023 年在塑造人工智能法律环境方面所做的最重要的政策和监管努力。这一视觉呈现突显了 2023 年在塑造人工智能法律环境方面所做的重要贡献。

争议

2023 年充满了引人入胜的辩论和讨论,探讨着人工智能领域的不确定性和不断变化的规范。随着这个行业塑造其发展方向,这些辩论变得不可避免,为未来带来更多发人深省的对话和挑战。以下是定义了今年的一些最引人注目的辩论:

对 ChatGPT 的企业限制

包括摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行等主要金融机构由于安全和隐私担忧对 ChatGPT 的使用进行了限制。这反映了一个更广泛的趋势,即企业向员工发出关于在公司环境中使用人工智能应用的法律注意事项的警告。

OpenAI 对低薪工人的使用

Time 的调查揭示了 OpenAI 与 Sama 的合作,雇佣肯尼亚的低薪工人来筛查 ChatGPT 的敏感内容。这一揭示引发了关于工人待遇以及内容管理对心理健康的影响的伦理问题。

OpenAI 的领导层过渡

Sam Altman 的离职和迅速回归成为上个月的头条新闻。在与董事会沟通不一致的情况下,OpenAI 发生了领导层过渡,Sam Altman 辞去首席执行官职务。临时首席执行官 Mira Murati 和大多数员工支持 Altman 的回归。这一前所未有的情况引起了广泛关注,对领导层过渡背后真正原因以及未来影响提出了问题。

Adobe 和 Figma

Adobe 对 Figma 的 200 亿美元收购计划遇到了监管障碍,引发了欧洲委员会和英国竞争与市场管理局的调查,以解决潜在的反垄断问题。所提议的交易影响不仅限于设计方面,Adobe 在客户数据平台上的主导地位引起了首席信息官(CIO)对其对云软件支出的潜在影响的担忧。然而,由于在欧洲和英国未能获得反垄断批准的挑战,Adobe 放弃了这笔交易,导致 Figma 获得 10 亿美元的终止费用。

摄影师黑了世界摄影大奖

摄影师Boris Eldagsen通过提交由人工智能生成的艺术品打破了索尼世界摄影大奖。Eldagsen 拒绝接受奖励引发了一场辩论,讨论了在传统摄影比赛中使用由人工智能生成的图像的位置,挑战了真实性和创造力的认知。

原文:https://journal.everypixel.com/2023-the-year-of-ai