美国大学研究:ChatGPT 的新闻搜索结果经常不准确

seekdeep1年前AI资讯481

据 The Verge 北京时间今日报道,美国哥伦比亚大学 Tow 数字新闻研究中心(Tow Center for Digital Journalism)的研究人员测试发现,OpenAI 的 ChatGPT 搜索工具在准确性上存在一些问题。

今年 11 月,OpenAI 面向订阅用户推出了这一工具,称其可以快速提供答案,并附带相关网页来源链接。然而研究显示,ChatGPT 搜索在识别文章引用时表现不佳,即使是面对来自与 OpenAI 数据共享的出版商的内容,ChatGPT 也难以准确处理。

研究人员测试了 20 家出版商的 200 条引文,其中 40 条来自禁止 OpenAI 爬虫抓取的网站。但 ChatGPT 依然自信地给出了错误答案,几乎没有表明自身的不确定性。

d50735fae6cd7b894bfb3455c3974aa8db330e97.jpg

测试结果显示,ChatGPT 的 153 次回答完全或部分错误,仅有 7 次明确表示无法准确回答。这 7 次回答中,它使用了“看起来”“有可能”等限定词,或直接承认“无法找到具体文章”。

一份图表进一步显示,ChatGPT 的回答中“错误”的占 89 次,“部分正确”有 57 次,而完全“正确”的只有 47 次。

测试中还记录了一些典型案例,例如,ChatGPT 错误地将《奥兰多哨兵报》读者来信的引用归因为《时代周刊》文章;另一个例子中,它在被要求确认《纽约时报》一篇关于濒危鲸鱼的文章引用时,链接到了一家完全剽窃该文章的网站。

OpenAI 对《哥伦比亚新闻评论》回应称,“在缺乏 Tow Center 隐藏的测试数据和方法的情况下,解决错误归因非常困难。这次研究是对我们产品的非典型测试。”OpenAI 同时承诺将继续优化搜索结果。

据IT之家此前报道,今年早些时候,OpenAI 还宣布与新闻行业进行了广泛的合作,并收集了合作伙伴对于搜索功能的反馈。任何网站或出版商都可以选择出现在 ChatGPT 搜索结果中。达成合作的媒体和出版商包含美联社、阿克塞尔・斯普林格、康泰纳仕、道奇梅雷迪思、《金融时报》、GEDI、赫斯特、《世界报》、路透社、大西洋月刊、时代杂志和 Vox 媒体等等。

相关文章

性能全面赶超GPT-4 Turbo,阿里云发布通义千问2.5!

阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4 Turbo,成为地表最强中文大模型。同时,通义千问最新开源的1100亿参数模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B...

OpenAI总裁:人机合作还得加强!ChatGPT击败50名人类医生!疾病诊断准确率达90%。

OpenAI总裁:人机合作还得加强!ChatGPT击败50名人类医生!疾病诊断准确率达90%。

用ChatGPT诊断疾病,准确率已经超过了人类医生?!斯坦福大学等机构进行了一轮随机临床试验,结果人类医生单独做出诊断的准确率为74%。在ChatGPT的辅助之下,这一数字提升到了76%。有意思的是,...

GPT-4正接管人类数据专家:先验知识让LLM大胆预测,准确率堪比传统方式

终有一天,LLM可以成为人类数据专家,针对不同领域进行数据分析,大大解放AI研究员。在数据科学中,AI研究员经常面临处理不完整数据集的挑战。然而,许多已有的算法根本无法处理「不完整」的数据序列。传统上...

GPT-5有望今年夏季发布,多模态能力预期提升,中国银河给予计算机行业推荐评级!

AI快讯,中国银河03月29日发布研报称:给予计算机行业推荐(维持)评级。近日,多家媒体公开消息称 GPT-5 预计将在今年夏季正式发布,目前仍处内测阶段。当前,最新版本 GPT-4 Turbo 已能...

ChatGPT等生成式工具将进行监管,全球首个AI监管法案获批!

当地时间3月13日,在法国斯特拉斯堡举行的欧洲议会全会上,欧洲议会正式投票通过并批准欧盟《人工智能法案》。这是全球首部人工智能(AI)法案,标志着AI监管新时代的展开。《每日经济新闻》记者注意到,欧盟...

面向付费用户,ChatGPT网页版上线高级语音模式!

面向付费用户,ChatGPT网页版上线高级语音模式!

日前 OpenAI 方面宣布,ChatGPT 网页版已正式上线高级语音模式(Advanced Voice Mode),并同样将面向 ChatGPT Plus、Team、Enterprise 和 Edu...