谈搜索的未来：做知识发现引擎，不是搜索引擎

允霆科技编程 2024-07-25 128 0 谈搜索的未来做知识发现引擎不是搜索引擎

编者按：

Perplexity是在第一波大语言模型应用潮里跑出来的优秀选手。成立不到两年的时间里，已经融资超过一亿美元，与三家模型大厂合作，是黄仁勋最喜欢的AI产品。

同时，它也受到诸多争议。上个月它被福布斯指控，未经允许盗用媒体的付费专属内容。WIRED也跟进调查，发现自家网站上的反爬虫设置，也没挡住Perplexity对内容的抓取。

同样是六月，Perplexity的CEOAravindSrinivas接受知名播客LexFridman的专访，他们聊了人工智能、互联网以及搜索——在AravindSrinivas心中，Perplexity是关于知识的获取、传播和再生产。

Perplexity实现了自己的愿景吗？这次专访可能是一次回顾来路的机会。

以下为访谈节选，内容经过编辑：

LexFridman：Perplexity的愿景是彻底改变我们人类在互联网上获取问题答案方式的公司。它结合了搜索引擎和大型语言模型（LLM）让回答的每个部分，都引用到人类在互联网上创建的来源。

这显著减少了LLM的幻觉问题，并使人更轻松、更可靠地使用它进行研究，以及通常在深夜会出现的、纯粹出于好奇心的冲浪。

Aravind曾是伯克利的博士生，并且在DeepMind、谷歌担任AI研究员，最后在OpenAI担任研究科学家。

这次对谈包含了许多关于机器学习最前沿的迷人技术细节，以及在增强生成（即RAG）、思维链推理、网络索引、UX设计等方面的创新。

Perplexity既是搜索引擎，又是LLM。它是如何工作的？搜索和LLM的各个部分在提供最终结果方面发挥了什么作用？

AravindSrinivas：Perplexity当然可以被描述为一个搜索引擎。你问它一个问题，你得到一个答案。但不同之处在于，所有的答案都有引用来源作为支持。这就像一个学者写论文一样。

引用就是搜索引擎的工作，结合传统搜索，提取与用户问询的相关结果，然后阅读这些链接，提取相关段落，输入到一个大型语言模型（LLM）中。

模型接收相关段落，查看问询，并给出一个格式漂亮的答案，并对其说的每个句子进行适当的脚注，因为它已被指令这样做——给定一堆链接和段落，为用户编写一个简洁的答案，并进行适当的引用。所有这些工作协同在一起的魔法效果，就是我们创建Perplexity的原因。

当我写我的第一篇论文时，和我一起工作的资深同行告诉我这是件严肃的事：那就是你论文中写的每个句子都应该有论据支持

，无论是引用来自另一份同行评审的论文，或者你自己论文中的实验结果。你在论文中说的任何其他内容更像是一个观点。这是一个非常简单的方式，但在它深刻地迫使你，只说正确的话。

我们采纳了这个原则，并问自己，如何让聊天机器人更准确，让它只返送在互联网上能找到来源的答案，并且要有多个来源。这样一来，实际上是出于需求而不是「哦，让我们试试这个想法」。

LexFridman：Perplexity的起源故事是什么？

AravindSrinivas：最开始，我们只想用大型语言模型（LLMs）构建一些很酷的产品，当时还不知道价值在哪里，是在模型中，还是在产品中？

但有一件事很清楚，这些生成模型已经从实验室里的研究项目，转而变成走向用户的应用程序。GitHubCopilot被很多人使用，我自己也在用，我看到周围的很多人都在用，AndrejKarpathy也在用，人们愿意为它付费。

这是一个不同于以往任何时候的时刻，以前的AI公司只是在收集大量数据，但那只是更大局的一小部分。但这是第一次，AI本身就是核心。

LexFridman:所以对你来说，Copilot是一个灵感来源。

AravindSrinivas:是的，GitHubCopilot。你可以称它为一个花哨的自动完成工具，没毛病。我希望我创办的公司具有一个属性，那就是它必须是AI闭环的。

这是我从LarryPage那里学到的一点：你要瞄准一个问题，一旦它作为目标被攻克，你就能从AI的进步中受益，产品会变得更好。

由于产品变得更好，更多的人会使用它，这样就帮助你收集更多数据，使AI变得更好。AI变得更好，产品也随之变得更好。这就创造了一个良性循环。

大多数公司很难拥有这种属性，这就是为什么他们都在努力找出他们可以在哪里使用AI，在哪里应该能够使用AI。

有两个产品我觉得真正做到了这一点。一个是谷歌搜索，任何在AI、语义理解、自然语言处理方面的改进都会提高产品，带来更多的数据，从而使产品变得更好，等等。

另一个是自动驾驶汽车，更多的人驾驶就会有更多的数据，这使模型变得更好，视觉系统变得更好，行为复刻变得更好。

LexFridman:你说的是特斯拉的自动驾驶方法。

AravindSrinivas:无论是Waymo还是特斯拉，都没关系。

LexFridman:所有进行明确数据收集的东西。

AravindSrinivas:对。我一直希望我的创业公司也是这种性质的，但它并不是设计为直接进行用户搜索的。

最初面对我们的第一位投资人EladGil提出的第一个想法是，「嘿，我们想颠覆谷歌，但我不知道怎么做。我只是一直在想，如果人们不再在搜索栏中输入内容，而是通过眼镜直接问他们看到的东西？」我一直喜欢GoogleGlass的版本，它非常酷。

他只是说，「集中精力，你不能在没有大量资金和人力的情况下来做这件事。找到一个细分领域，做一些东西，然后你可以朝着更宏伟的愿景努力。」这是非常好的建议。

当我们开始创业时，所有人都有很多问题。我们都是新手，以前从未做过产品，从未创立过公司。当然，我们已经完成了很多很酷的工程问题，但从零开始始终是考验，有很多麻烦

。

我们雇佣的第一名员工来问关于健康保险的事。很正常的需求，但我没在意过，我就想，「为什么要健康保险？如果这家公司倒闭了，谁还管？」我的其他两位联合创始人都结婚了，所以他们有配偶买的保险，但这个家伙需要的保险，我甚至一无所知。

买哪个公司的？什么是共同保险，免赔额？这些我都不懂。你去谷歌查，保险是一个广告支出的大类。即使你问了，谷歌也没有动机给你清晰的答案，他们希望你点击所有这些链接并自己阅读，因为所有这些保险公司都在竞标以获得你的注意。

我们集成了一个Slack机器人，这个机器人会询问GPT3.5并回答问题。听起来这就解决了，但实际上我们并不知道它所说的是否正确，事实上，它说错了一些信息。

我们当时想，「好吧，我们该如何解决这个问题？」我们想起了我们的学术背景。我和Dennis都是学者，Dennis是我的联合创始人。

我们想，「行吧，我们在同行评审的论文时，防止自己说胡话的一个方法是什么？」

我们总是确保我们写的每一句话都有引用。

那么，如果我们要求聊天机器人也这样做呢？然后我们意识到，这实际上就是维基百科的运作方式。

在维基百科中，如果你随意进行编辑，人们期望你是有一个来源的，而且不仅是随随便便一个来源，他们希望你确保来源有可靠的。有许多标准来判断什么算是可靠的，什么不是。所以Dennis认为这是一个值得尝试的方向。

这不仅是一个可以通过更智能模型解决的问题，还有许多其他事情要在搜索层面和来源层面上做，并确保答案的格式和呈现方式对用户来说是合理的。这就是为什么这个产品存在的原因。

LexFridman：我有些问题要问，但首先，放宽视野。本质上，它是关于搜索的。你说有一个搜索的构件，然后一个通过LLM讲故事的构件和引用构件，但它首先是关于搜索的。你认为Perplexity是一个搜索引擎吗？

AravindSrinivas：我认为Perplexity是一个知识发现引擎，不是搜索引擎。

当然，我们称它为答案引擎，但这里的一切都很重要。当你得到答案，旅程并没有结束，在我看来，你得到答案后旅程才开始

你会看到底部出现的相关问题，为什么？因为也许答案不够好，或者答案足够好，但你可能想要深入挖掘并提出更多问题。

这就是为什么我们在搜索栏里写，「知识从这里开始」，因为知识没有尽头，你只能扩展和成长。

这就是DavidDeutsch的书《无限开始》的整个概念。你总是在寻求新知识。我将这看作是一种发现过程。

LexFridman：如果长远来看，你认为搜索的未来是什么样的？也许我们还可以问一个更大的问题，互联网的未来是什么样的？也许甚至是浏览器的未来，谈搜索的未来：做知识发现引擎，不是搜索引擎我们如何与互联网互动？

AravindSrinivas：如果你看得更远点，甚至在互联网之前，知识一直在不断传播。这是一个比搜索更大的事。

搜索是一种方法。互联网是快速传播知识的一种方式，最开始按主题组织，然后有Yahoo分类，然后是更多的超链接。Google也开始通过知识图谱等做即时问答。我认为即使在2010年，Google流量的三分之一，当时是每天30亿次查询，都是来自Google知识图谱的即时答案，基本上来自Freebase和Wikidata的东西，都是。

所以很明显，至少30到40%的搜索流量只是答案的一部分。其余的，你也可以说是像我们现在正在服务的，更深度的答案。

但是另一个真实的情况是，随着更深层次的答案，更深入的研究力量，你能够问出以前不能问的问题。比如，你能问「AWS是否在Netflix上」这样的问题吗？这将让你问一种新的问题，一种新的知识传播。所以清楚地解释搜索和答案引擎之间的区别很难。

我相信我们正朝着的方向既不是搜索也不是答案引擎，而是发现，知识发现的方向发展

。这是更大的使命，可以通过聊天机器人，答案机器人，语音等使用形式来满足，但比这更重要的是指导人们发现事物。我认为这就是我们在Perplexity上想要做的，满足人类的基本好奇心。

LexFridman：所以这是人类物种的集体智慧，总是在寻求更多的知识，你正在给它工具以更快的速度达到。

AravindSrinivas：没错。

LexFridman：你认为人类物种的知识量会随着时间的推移而迅速增加吗？

AravindSrinivas：我希望如此。更重要的是，如果我们能够改变每个人，让他们比以前更追求真理——仅仅因为他们有能力，仅仅因为他们有工具，我认为这将带来更多的知识