最近,秘塔AI搜索的用户在打开网站时会发现顶端有一行醒目的文字:“完蛋!我们收到了知网28页的侵权告知函”。
点开是秘塔的一份声明,其表示收到《中国学术期刊(光盘版)》电子杂志社有限公司侵权告知函——也就是此前先后因涉嫌垄断行为和个人信息安全等问题被罚8760万元和5000万元而争议不断的知网,向它发出了侵权指控。
简单地概括,秘塔AI搜索能搜到知网的内容,知网认为这是一种侵权行为,要求立即停止在搜索服务中提供中国知网的数据。
“我司不希望我司网站中国知网被秘塔科技搜索到,请立即断开搜索结果到我司网站的链接。如需商务合作,请与我司联系。”
秘塔科技在这份声明中回应,秘塔AI搜索的“学术”版块仅收录了论文的文献摘要和题录,并未收录文章内容本身,阅读正文需通过来源链接跳转至网站获取。而依照学术规范,文献的摘要和题录应具有独立性和自明性,能够使读者不阅读全文就能获得必要的信息。
秘塔AI同时强调了知识的价值在于流动,学术文献汇集了人类智力成果的重要载体,具有极强的不可替代性。科学文献若成为一种奢侈品,既不利于知识的公平获取,也不利于科学研究的发展。
不过从人类智慧到学术追求谈完后,秘塔给出的行动是“断链”:“即使不理解,但我们也尊重知网的选择。”从即日起,秘塔AI搜索将不再收录知网文献的题录及摘要数据,转而收录其他中英文权威知识库的文献题录及摘要数据,也欢迎其他数据库来合作探讨。
秘塔AI搜索是这一轮AI热潮里的明星产品,经常被比作中国的Perplexity。秘塔也是这一轮大模型创业公司里的明星公司,最新消息显示,其完成了一亿元的最新融资,投后估值1.5亿美元。秘塔成立于大模型热潮之前,但核心产品秘塔AI搜索是在今年3月正式上线。
知网的侵权通知中称秘塔向用户提供知网的学术文献题录及摘要数据,涉嫌侵权。对此,上海大邦律师事务所高级合伙人、律师游云庭表示,网页不同于论文,知网的学术文献题录及摘要网页都是国内用户公开可以访问的,知网作为在中国境内中文学术文献网络数据库服务市场具有支配地位的经营者,其不允许秘塔搜索抓取这两部分公开信息需要有合理的理由。
本质上,知网是要求秘塔不要对其网站进行爬虫。而在传统搜索引擎的生态里,这样的信息抓取爬虫行为有基本的规则——各个网站和各种信息提供方通过一个Robots.txt文件来告诉搜索引擎哪些内容可以抓取,哪些不行。
而像百度、谷歌等搜索引擎会在这个过程中把自家的爬虫进行命名,让对方知道自己来过,拿走了什么。但从知网的Robots.txt文件来看,它没有针对任何爬虫做屏蔽。
“有意思的是,虽然知网给秘塔发函要求断开链接,也就是不允许其抓取网页内容,但其robots文件(却并没有禁止任何搜索引擎爬虫,根据知网的robots文件内容,不禁止任何人抓取他们网页,只是cms、query.html?*、 report、paper、qrcode、js、cs这些涉及后台管理界面、静态资源目录和特定内容目录网页不能抓取。”
“现在很多的人工智能搜索引擎的爬虫确实也不讲武德,其不像传统的百度、谷歌、搜狗、必应那样把自家的爬虫进行命名,而是默不作声的匿名爬取。”游云庭表示。其实这些匿名爬取不一定都是以这些AI搜索公司之名展开。市面上有很多第三方的爬虫服务,以各种方法绕开这些基本准则进行爬取。而是否使用了这些服务,在秘塔的回复中没有提到。
但被问到是否会停止使用第三方爬虫时他只是表示“这很复杂”。此外,当时这个调查还显示,在某些情况下,Perplexity 可能并未总结实际的文章,而是根据 URL 和搜索引擎中留下的痕迹(例如摘录和元数据)重建内容。似曾相识。
银河galaxy官网
根据秘塔发布的文章,知网向秘塔发送的侵权通知长达28页。秘塔仅截取了告知函发布出来,而从发的的截图来看,剩下的内容主要在罗列侵权的证据,这些内容可能不只是展示各种摘要和标题被爬取的情况。
根据不少用户此前的分享,秘塔是能获取到非公开论文的,而且,可以在秘塔的网页直接阅读,这些PDF文档虽链接到外部文库网站,实际可能存储于秘塔服务器。游云庭认为如果秘塔建立了包含知网论文全文内容的索引库,可能构成侵权。
“秘塔AI搜索的播客和文库板块是有索引库的,我理解的索引库可能是秘塔把批量收集的文献事先直接在内部做了一个索引数据库,当用户搜索时,秘塔会搜索网络对应的实时内容,然后利用人工智能把实时搜索结果和索引库的内容整合在一起提供答案。”游云庭说。也就是虽然核心的展示结果页面对索引以标注来源形式呈现,但同时在自己的服务里把“原文”也搬了过来。
“索引库很可能是真实存在的,其实这个技术上也不难证明,我们代理诉讼时碰到此问题,通常用抓包软件显示该文档的真实ip地址。如果这个ip地址位于秘塔的服务器,则说明是秘塔提供的。”
此外,作为使用预训练模型为基础的AI搜索引擎,在训练数据里是否用到了这些有知识产权的数据,则是更重要的问题。
当训练里的论文数据因为模型通常会存在的“过拟合”问题而导致最终给用户输出内容时与原文高度一致,这就从合理使用进入了类似“洗稿”的著作权侵权范畴了。
他表示,知网站内的多数论文虽然被收录,但知网拥有这是杂志社或作者授权的信息网络传播权,如果该论文被用于训练,训练涉及的版权是著作权法规定的复制权和著作权其他权利,并不侵犯知网的信息网络传播权。当然如果是杂志社维权秘塔训练侵权的,那么秘塔将面临《》起诉OpenAI一模一样的问题。
除了对知网作出回应——这些回应总能引发共情,从它回应文章的评论区看,人们依然是苦知网久矣的态度,纷纷“站”秘塔——秘塔们也许可以对这些训练数据背后的个体作者讲解一下这些数据的使用情况。
此次陷入争议的“学术”搜索功能,是秘塔区别于其他Perplexity们的一个重要设计,这个功能也赢得了不少用户的好评。这些用户往往是一些需要为课堂作业、文章二次创作甚至写论文等任务做大量文献查询的用户。
在最近Nature的一篇文章中就指出,很多学术出版商已经向科技公司授权访问自家的论文,用来训练AI模型。比如美国出版商Wiley允许某家公司使用其内容训模型后,直接获得2300万美元收益。而这些收入与论文作者一点关系都没有。
除了这种很可能最终也无法解决的真实收益分配问题,对于这些研究者来说,学术界本身的一些很重要的评价体系也在这种“AI学术搜索”的生成过程里被打乱。比如,学术界很重要的一个指标——引用量,在这些AI学术搜索的场景里似乎不存在了。大模型本身的随机性和不可解释性,以及数据的不完整性,都让它生成的这些学术搜索结果与学术界本身的判断标准有出入。
一名学者对硅星人表示,在这些AI搜索自己生成答案的时候,选哪个不选哪个的标准是什么呢?对于把引用量作为最直接含金量标准的学术界,如果这些AI结果越来越多,然后也被许多研究者用在自己的论文里,这是不是也是另一种形式的AI SEO污染?
对于这次争议本身,当秘塔清除了索引库中的知网论文,并不再向用户提供知网论文的在线阅读功能,知识产权侵权的争议就很小了,而且游云庭表示,根据《反垄断法》和《互联网搜索引擎服务自律公约》,知网不允许秘塔搜索抓取这两部分公开信息就不再具有合理的理由。
但如果AI搜索公司们把自己在做的产品当作一个长期和严肃的事,那除了围着产品的一些小确幸进行庆祝,和一些潇洒的态度之外,也是时候正视这些复杂而现实的问题,用合适的方式公开的讨论它,只有这样才真正有望触及它们希望挑战的今天信息获取领域真正的症结。