Databricks扩展Mosaic AI以帮助企业使用LLM构建

一年前,Databricks以13亿美元收购了MosaicML。现在更名为Mosaic AI,该平台已成为Databricks AI解决方案的重要组成部分。 今天,在公司的Data + AI Summit上,它将推出该服务的许多新功能。 在公布新功能之前,我与Databricks联合创始人兼CEO Ali Ghodsi和CTO Matei Zaharia进行了交谈。Databricks正在其会议上推出五种新的Mosaic AI工具:Mosaic AI Agent Framework,Mosaic AI Agent Evaluation,Mosaic AI Tools Catalog,Mosaic AI Model Training和Mosaic AI Gateway。 “这是一个很棒的一年——Gen AI有了巨大的发展。每个人都对此感到兴奋,”Ghodsi告诉我。“但所有人关心的仍然是同样的三件事:我们如何提高这些模型的质量或可靠性?第二,我们如何确保成本效益?这些模型的成本之间存在巨大的差异——价格上存在巨大的量级差异。第三,我们如何在保持数据隐私的同时做到这一点?”今天的推出旨在为Databricks的客户解决这些问题中的大部分问题。Zaharia还指出,现在将大型语言模型(LLMs)部署到生产中的企业正在使用具有多个组件的系统。这通常意味着他们对模型进行多次调用(或许可能还对多个模型进行调用),并使用各种外部工具来访问数据库或执行检索增强生成(RAG)。这些复合系统可以加快基于LLM的应用程序,并通过使用更便宜的模型来对特定查询或缓存结果进行节省成本,最重要的是通过用专有数据增加基础模型来使结果更加可靠和相关性。“我们认为这是真正高影响、使命关键AI应用的未来,”他解释道。“因为如果你仔细考虑,如果你要做一些真正使命关键的事情,你将希望工程师能够控制它的所有方面——而你可以通过模块化系统来实现这一点。 因此,我们正在进行大量关于为特定任务创建这些[系统]的最佳方法的基础研究,以便开发人员可以轻松地使用它们,连接所有组件,跟踪所有内容,并查看正在发生的事情。”至于实际构建这些系统,Databricks本周推出了两项服务:Mosaic AI Agent Framework和Mosaic AI Tools Catalog。 AI Agent Framework采用了该公司的无服务器向量搜索功能,该功能于上个月正式推出,并为开发人员提供了在此基础上构建他们自己的RAG应用程序的工具。Ghodsi和Zaharia强调,Databricks的向量搜索系统采用了混合方法,将传统的基于关键字的搜索与嵌入式搜索相结合。 所有这些都与Databricks数据湖深度集成,且两个平台上的数据总是自动保持同步。这些包括整个Databricks平台的治理功能,特别是Databricks Unity Catalog治理层,以确保,例如,个人信息不会泄露到向量搜索服务中。谈到Unity Catalog(该公司现在也在慢慢开源),值得注意的是,Databricks现在正在扩展这个系统,让企业规定这些LLMs生成答案时可以调用哪些AI工具和功能。 Databricks表示,此目录还将使公司内部这些服务更易于发现。Ghodsi还强调,开发人员现在可以利用所有这些工具来构建他们自己的代理,例如使用Langchain或LlamaIndex链接模型和功能。实际上,Zaharia告诉我,许多Databricks客户今天已经在使用这些工具。“许多公司正在使用这些工具,甚至是类似代理的工作流。我认为人们通常会对这样的工具有多少使用感到惊讶,但它似乎是事情发展的方向。我们还发现,在我们内部的AI应用程序中,例如为我们的平台编写的助手应用程序,这就是构建它们的方式,”他说。为了评估这些新应用,Databricks还推出了Mosaic AI Agent Evaluation,这是一个AI辅助评估工具,它结合了基于LLM的评判者来测试AI在生产中表现如何,但也允许企业能够快速从用户那里获得反馈(并让他们标记一些初始数据集)。 Quality Lab包含一个基于该公司今年早些时候收购的Lilac的UI组件,该组件允许用户可视化和搜索大量文本数据集。“我们的每个客户都在说:我确实需要在内部进行一些标注,我将让一些员工去做。我可能只需要100个答案,或者可能500个答案——然后我们可以把它们输入LLM评判者,”Ghodsi解释道。另一种改善结果的方法是使用精调模型。为此,Databricks现在提供了Mosaic AI Model Training服务,允许用户使用他们机构的私有数据来对模型进行优化,以帮助它们在特定任务上表现更好。最后一个新工具是Mosaic AI Gateway,该公司将其描述为“查询、管理和部署任何开源或专有模型的统一接口”。这里的想法是让用户以受控的方式查询任何LLM,使用一个集中化的凭据存储。毕竟,没有一家企业希望其工程师向第三方服务发送随机数据。在预算不断缩减的时代,AI Gateway还允许IT为不同供应商设置速率限制,以使成本可控。此外,这些企业还获得用于调试这些系统的使用跟踪和追踪。正如Ghodsi告诉我的那样,所有这些新功能都是针对Databricks用户现在如何使用LLMs而推出的。“我们看到市场在过去的一个半季中发生了重大变化。去年年初,你与任何人交谈,他们都会说:我们支持开源,开源很棒。但当你真正推动人们时,他们会使用Open AI。无论人们说什么,无论他们多么大声地吹捧开源是多么棒,幕后,他们都在使用Open AI。”现在,这些客户变得更加复杂,正在使用开放模型(当然,真正开源的很少),这反过来要求他们采用一整套全新的工具来解决与此相关的问题——和机会。