美国大学研究:ChatGPT 的新闻搜索结果经常不准确

seekdeep1年前AI资讯408

据 The Verge 北京时间今日报道,美国哥伦比亚大学 Tow 数字新闻研究中心(Tow Center for Digital Journalism)的研究人员测试发现,OpenAI 的 ChatGPT 搜索工具在准确性上存在一些问题。

今年 11 月,OpenAI 面向订阅用户推出了这一工具,称其可以快速提供答案,并附带相关网页来源链接。然而研究显示,ChatGPT 搜索在识别文章引用时表现不佳,即使是面对来自与 OpenAI 数据共享的出版商的内容,ChatGPT 也难以准确处理。

研究人员测试了 20 家出版商的 200 条引文,其中 40 条来自禁止 OpenAI 爬虫抓取的网站。但 ChatGPT 依然自信地给出了错误答案,几乎没有表明自身的不确定性。

d50735fae6cd7b894bfb3455c3974aa8db330e97.jpg

测试结果显示,ChatGPT 的 153 次回答完全或部分错误,仅有 7 次明确表示无法准确回答。这 7 次回答中,它使用了“看起来”“有可能”等限定词,或直接承认“无法找到具体文章”。

一份图表进一步显示,ChatGPT 的回答中“错误”的占 89 次,“部分正确”有 57 次,而完全“正确”的只有 47 次。

测试中还记录了一些典型案例,例如,ChatGPT 错误地将《奥兰多哨兵报》读者来信的引用归因为《时代周刊》文章;另一个例子中,它在被要求确认《纽约时报》一篇关于濒危鲸鱼的文章引用时,链接到了一家完全剽窃该文章的网站。

OpenAI 对《哥伦比亚新闻评论》回应称,“在缺乏 Tow Center 隐藏的测试数据和方法的情况下,解决错误归因非常困难。这次研究是对我们产品的非典型测试。”OpenAI 同时承诺将继续优化搜索结果。

据IT之家此前报道,今年早些时候,OpenAI 还宣布与新闻行业进行了广泛的合作,并收集了合作伙伴对于搜索功能的反馈。任何网站或出版商都可以选择出现在 ChatGPT 搜索结果中。达成合作的媒体和出版商包含美联社、阿克塞尔・斯普林格、康泰纳仕、道奇梅雷迪思、《金融时报》、GEDI、赫斯特、《世界报》、路透社、大西洋月刊、时代杂志和 Vox 媒体等等。

相关文章

UC伯克利仅使用当前模型检查点预测未来模型,GPT-5涌现能力可预测?!

LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来...

AI是否会取代新闻媒体的记者?

AI是否会取代记者?这是近年来媒体行业最热门的话题之一。在近日的一场行业论坛中,四位资深媒体人齐聚一堂,就AI技术对媒体行业的冲击与机遇展开了深入讨论。中国记协原书记处书记张百新在会上指出,AI技术正...

OpenAI该放出“GPT-5”了,对手相继突破GPT-4!

终于,GPT-4独霸时代终结了!过去一个月里,四款大模型横空出世,在各项关键基准测试中与GPT-4相匹敌,甚至更胜一筹。谷歌Gemini 1.5突破100万个tokens,是GPT-4的近8倍,此外能...

应用场景尚待深化,部署DeepSeek 银行大模型矩阵扩容!

  在现有大模型矩阵引入DeepSeek的银行,数量还在增加。截至记者发稿前,除了工行、邮储、建行、招行、浦发等大中型银行,一些地方中小银行、互联网银行也在加快部署DeepSeek大模型,推进其在智能...

MedGPT凭借精确性成为医生“好帮手”,筑牢安全防线!

MedGPT凭借精确性成为医生“好帮手”,筑牢安全防线!

近日,国家卫生健康委办公厅、国家中医药局综合司、国家疾控局综合司联合发布《卫生健康行业人工智能应用场景参考指引》,指出各地要积极推进卫生健康行业“人工智能+”应用创新发展,在医学影像智能辅助诊断及质控...

GPT-4o语音模式部分开放,秋季覆盖所有付费用户

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地...