谈搜索的未来:做知识发现引擎,不是搜索引擎

编者按:

Perplexity是在第一波大语言模型应用潮里跑出来的优秀选手。成立不到两年的时间里,已经融资超过一亿美元,与三家模型大厂合作,是黄仁勋最喜欢的AI产品。

同时,它也受到诸多争议。上个月它被福布斯指控,未经允许盗用媒体的付费专属内容。WIRED也跟进调查,发现自家网站上的反爬虫设置,也没挡住Perplexity对内容的抓取。

同样是六月,Perplexity的CEOAravindSrinivas接受知名播客LexFridman的专访,他们聊了人工智能、互联网以及搜索——在AravindSrinivas心中,Perplexity是关于知识的获取、传播和再生产。

Perplexity实现了自己的愿景吗?这次专访可能是一次回顾来路的机会。

以下为访谈节选,内容经过编辑:

LexFridman:Perplexity的愿景是彻底改变我们人类在互联网上获取问题答案方式的公司。它结合了搜索引擎和大型语言模型(LLM)让回答的每个部分,都引用到人类在互联网上创建的来源。

这显著减少了LLM的幻觉问题,并使人更轻松、更可靠地使用它进行研究,以及通常在深夜会出现的、纯粹出于好奇心的冲浪。

Aravind曾是伯克利的博士生,并且在DeepMind、谷歌担任AI研究员,最后在OpenAI担任研究科学家。

这次对谈包含了许多关于机器学习最前沿的迷人技术细节,以及在增强生成(即RAG)、思维链推理、网络索引、UX设计等方面的创新。

Perplexity既是搜索引擎,又是LLM。它是如何工作的?搜索和LLM的各个部分在提供最终结果方面发挥了什么作用?

AravindSrinivas:Perplexity当然可以被描述为一个搜索引擎。你问它一个问题,你得到一个答案。但不同之处在于,所有的答案都有引用来源作为支持。这就像一个学者写论文一样。

引用就是搜索引擎的工作,结合传统搜索,提取与用户问询的相关结果,然后阅读这些链接,提取相关段落,输入到一个大型语言模型(LLM)中。

模型接收相关段落,查看问询,并给出一个格式漂亮的答案,并对其说的每个句子进行适当的脚注,因为它已被指令这样做——给定一堆链接和段落,为用户编写一个简洁的答案,并进行适当的引用。所有这些工作协同在一起的魔法效果,就是我们创建Perplexity的原因。

当我写我的第一篇论文时,和我一起工作的资深同行告诉我这是件严肃的事:那就是你论文中写的每个句子都应该有论据支持

,无论是引用来自另一份同行评审的论文,或者你自己论文中的实验结果。你在论文中说的任何其他内容更像是一个观点。这是一个非常简单的方式,但在它深刻地迫使你,只说正确的话。

我们采纳了这个原则,并问自己,如何让聊天机器人更准确,让它只返送在互联网上能找到来源的答案,并且要有多个来源。这样一来,实际上是出于需求而不是「哦,让我们试试这个想法」。

LexFridman:Perplexity的起源故事是什么?

AravindSrinivas:最开始,我们只想用大型语言模型(LLMs)构建一些很酷的产品,当时还不知道价值在哪里,是在模型中,还是在产品中?

但有一件事很清楚,这些生成模型已经从实验室里的研究项目,转而变成走向用户的应用程序。GitHubCopilot被很多人使用,我自己也在用,我看到周围的很多人都在用,AndrejKarpathy也在用,人们愿意为它付费。

这是一个不同于以往任何时候的时刻,以前的AI公司只是在收集大量数据,但那只是更大局的一小部分。但这是第一次,AI本身就是核心。

LexFridman:所以对你来说,Copilot是一个灵感来源。

AravindSrinivas:是的,GitHubCopilot。你可以称它为一个花哨的自动完成工具,没毛病。我希望我创办的公司具有一个属性,那就是它必须是AI闭环的。

这是我从LarryPage那里学到的一点:你要瞄准一个问题,一旦它作为目标被攻克,你就能从AI的进步中受益,产品会变得更好。

由于产品变得更好,更多的人会使用它,这样就帮助你收集更多数据,使AI变得更好。AI变得更好,产品也随之变得更好。这就创造了一个良性循环。

大多数公司很难拥有这种属性,这就是为什么他们都在努力找出他们可以在哪里使用AI,在哪里应该能够使用AI。

有两个产品我觉得真正做到了这一点。一个是谷歌搜索,任何在AI、语义理解、自然语言处理方面的改进都会提高产品,带来更多的数据,从而使产品变得更好,等等。

另一个是自动驾驶汽车,更多的人驾驶就会有更多的数据,这使模型变得更好,视觉系统变得更好,行为复刻变得更好。

LexFridman:你说的是特斯拉的自动驾驶方法。

AravindSrinivas:无论是Waymo还是特斯拉,都没关系。

LexFridman:所有进行明确数据收集的东西。

AravindSrinivas:对。我一直希望我的创业公司也是这种性质的,但它并不是设计为直接进行用户搜索的。

最初面对我们的第一位投资人EladGil提出的第一个想法是,「嘿,我们想颠覆谷歌,但我不知道怎么做。我只是一直在想,如果人们不再在搜索栏中输入内容,而是通过眼镜直接问他们看到的东西?」我一直喜欢GoogleGlass的版本,它非常酷。

他只是说,「集中精力,你不能在没有大量资金和人力的情况下来做这件事。找到一个细分领域,做一些东西,然后你可以朝着更宏伟的愿景努力。」这是非常好的建议。

当我们开始创业时,所有人都有很多问题。我们都是新手,以前从未做过产品,从未创立过公司。当然,我们已经完成了很多很酷的工程问题,但从零开始始终是考验,有很多麻烦

我们雇佣的第一名员工来问关于健康保险的事。很正常的需求,但我没在意过,我就想,「为什么要健康保险?如果这家公司倒闭了,谁还管?」我的其他两位联合创始人都结婚了,所以他们有配偶买的保险,但这个家伙需要的保险,我甚至一无所知。

买哪个公司的?什么是共同保险,免赔额?这些我都不懂。你去谷歌查,保险是一个广告支出的大类。即使你问了,谷歌也没有动机给你清晰的答案,他们希望你点击所有这些链接并自己阅读,因为所有这些保险公司都在竞标以获得你的注意。

我们集成了一个Slack机器人,这个机器人会询问GPT3.5并回答问题。听起来这就解决了,但实际上我们并不知道它所说的是否正确,事实上,它说错了一些信息。

我们当时想,「好吧,我们该如何解决这个问题?」我们想起了我们的学术背景。我和Dennis都是学者,Dennis是我的联合创始人。

我们想,「行吧,我们在同行评审的论文时,防止自己说胡话的一个方法是什么?」

我们总是确保我们写的每一句话都有引用。

那么,如果我们要求聊天机器人也这样做呢?然后我们意识到,这实际上就是维基百科的运作方式。

在维基百科中,如果你随意进行编辑,人们期望你是有一个来源的,而且不仅是随随便便一个来源,他们希望你确保来源有可靠的。有许多标准来判断什么算是可靠的,什么不是。所以Dennis认为这是一个值得尝试的方向。

这不仅是一个可以通过更智能模型解决的问题,还有许多其他事情要在搜索层面和来源层面上做,并确保答案的格式和呈现方式对用户来说是合理的。这就是为什么这个产品存在的原因。

LexFridman:我有些问题要问,但首先,放宽视野。本质上,它是关于搜索的。你说有一个搜索的构件,然后一个通过LLM讲故事的构件和引用构件,但它首先是关于搜索的。你认为Perplexity是一个搜索引擎吗?

AravindSrinivas:我认为Perplexity是一个知识发现引擎,不是搜索引擎。

当然,我们称它为答案引擎,但这里的一切都很重要。当你得到答案,旅程并没有结束,在我看来,你得到答案后旅程才开始

你会看到底部出现的相关问题,为什么?因为也许答案不够好,或者答案足够好,但你可能想要深入挖掘并提出更多问题。

这就是为什么我们在搜索栏里写,「知识从这里开始」,因为知识没有尽头,你只能扩展和成长。

这就是DavidDeutsch的书《无限开始》的整个概念。你总是在寻求新知识。我将这看作是一种发现过程。

LexFridman:如果长远来看,你认为搜索的未来是什么样的?也许我们还可以问一个更大的问题,互联网的未来是什么样的?也许甚至是浏览器的未来,谈搜索的未来:做知识发现引擎,不是搜索引擎我们如何与互联网互动?

AravindSrinivas:如果你看得更远点,甚至在互联网之前,知识一直在不断传播。这是一个比搜索更大的事。

搜索是一种方法。互联网是快速传播知识的一种方式,最开始按主题组织,然后有Yahoo分类,然后是更多的超链接。Google也开始通过知识图谱等做即时问答。我认为即使在2010年,Google流量的三分之一,当时是每天30亿次查询,都是来自Google知识图谱的即时答案,基本上来自Freebase和Wikidata的东西,都是。

所以很明显,至少30到40%的搜索流量只是答案的一部分。其余的,你也可以说是像我们现在正在服务的,更深度的答案。

但是另一个真实的情况是,随着更深层次的答案,更深入的研究力量,你能够问出以前不能问的问题。比如,你能问「AWS是否在Netflix上」这样的问题吗?这将让你问一种新的问题,一种新的知识传播。所以清楚地解释搜索和答案引擎之间的区别很难。

我相信我们正朝着的方向既不是搜索也不是答案引擎,而是发现,知识发现的方向发展

。这是更大的使命,可以通过聊天机器人,答案机器人,语音等使用形式来满足,但比这更重要的是指导人们发现事物。我认为这就是我们在Perplexity上想要做的,满足人类的基本好奇心。

LexFridman:所以这是人类物种的集体智慧,总是在寻求更多的知识,你正在给它工具以更快的速度达到。

AravindSrinivas:没错。

LexFridman:你认为人类物种的知识量会随着时间的推移而迅速增加吗?

AravindSrinivas:我希望如此。更重要的是,如果我们能够改变每个人,让他们比以前更追求真理——仅仅因为他们有能力,仅仅因为他们有工具,我认为这将带来更多的知识

。实际上,更多的人会对事实核查和发现事物感兴趣,而不是仅仅依赖其他人,和他们道听途说来的消息,因为那些总是可能被政治化,或有意识形态的影响。

所以我认为这种进展会非常好,我希望这是我们可以一起建设的互联网。比如通过我们正在进行的Pages项目,让人们不费多少力气就能写文章。这个项目的愿景在于,你在Perplexity上的浏览会话和问询不仅对你自己有用。

黄仁勋在他的演讲中说过,「我在别人面前给一个人反馈,不是因为我想压低或提升任何人,而是因为我们都可以从彼此的经验中学习」。

为什么只有你能从你的错误中学习?其他人也可以从别人的错误中学习,或者另一个人也可以从别人的成功中学习。

所以这就是其中的一部分。为什么你不能分享自己在Perplexity上的一个Q&A会话,和你从中学到的东西,然后传播到世界其他地方?我想要更多这样的事情发生。

文|Selina

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

允霆科技

允霆科技网是一家以科技创新为核心,为客户提供各类科技新闻、科技资讯、科技产品评测、科技解决方案等科技行业服务的高科技企业。

最近发表