AI排行榜|ChatGPT、Gemini非第一!準確度大比拼!第1名竟是「它」

文: 冼婉君
3小時前

AI排行榜|AI已成為時代的主流,而市面上AI工具也愈來愈多,由最初的ChatGPT,到後來的Gemini、Gork、Perplexity等。最近英國就有研究組織就住6大AI工具準確度排行榜進行訪問調查,驚喜發現ChatGPT竟不是準確率第一位。另外這些高人氣 AI 工具在提供關鍵的消費者建議時,經常給出不準確、含糊不清,甚至具有風險的答案!

英國消費者組織《Which?》最近針對AI問題向數千名成年人進行問卷調查,測試了六款主流AI工具——ChatGPT、Google Gemini、Gemini AI Overview (AIO)、Microsoft 的 Copilot、Meta AI 和 Perplexity,以評估它們在回答常見消費者問題(涵蓋個人金融、法律諮詢、健康與飲食、消費者權益和旅遊等主題)時的表現。專家根據答案的準確性、相關性、清晰度和實用性進行評分。


AI 準確度排行榜出爐:Perplexity意外奪冠

研究人員向每款工具提出了 40 個問題,並由《Which?》專家根據答案的準確性、相關性、清晰度、實用性和道德責任進行評估,然後匯總為總分。

排名AI工具整體準確率
1Perplexity71%
2Gemini AI Overviews70%
3Google Gemini69%
4Microsoft Copilot68%
5ChatGPT64%
6Meta AI55%

根據調查結果顯示,Meta AI的得分最低,只有55%;而大家使用率最高的工具ChatGPT得分卻是倒數第二;而Perplexity則以71%的分數位居榜首,在準確性、相關性、清晰度和實用性方面均獲得最高分。因此證明在專業可靠度上,知名度最高的工具並非表現最好。


高人氣AI工具的致命錯誤:法律、金融問題頻頻失準

雖然AI存在缺陷,但使用者對其輸出的資訊信任度依然十分高,調查顯示,約有一半(51%)的受訪者使用 AI 進行網路資訊搜尋。而在這些使用者中,有近一半(47%)的人表示,他們對收到的資訊抱持「高度」或「合理程度」的信任。在頻繁使用AI的群體中,信任度甚至上升到近 三分之二(65%)

這亦都表示消費者對AI資訊的「合理信任」與其實際可靠度存在巨大落差,而尤其是在涉及金融、法律和醫療等高風險領域,依賴AI回覆可能會導致嚴重的財務損失或法律風險

誤導性的金融建議

在關於「個人儲蓄帳戶 (ISA)」年度投資額度的測試中,研究人員故意設定錯誤上限 (£25,000),結果ChatGPT和Copilot竟未能察覺錯誤,直接基於此前提提供投資建議,可能導致使用者違反稅務規定

其二,在詢問如何申領退稅時,ChatGPT 和 Perplexity均在免費的政府服務旁,列出了收費高昂的第三方退稅公司連結,這些公司常因收取高額費用而受到批評。

危險的法律行動建議

在處理建築工程糾紛時,Google Gemini建議消費者可以「扣留工匠款項」。專家警告,這類行動在某些情況下可能構成違約,反而削弱消費者的法律地位。

ChatGPT、Gemini AIO 和Meta AI在處理寬頻速度問題時,未能區分不同服務供應商是否簽署了相關的自願性規範,導致給出的合約退出權利建議是錯誤的。

引用不可靠來源

AI 經常引用過時或不可信的資訊,例如在健康或旅行建議中,引用數年前的Reddit論壇貼文作為參考來源。


科技巨頭的回應

面對調查結果,各大科技公司均承認了AI模型的局限性。

微軟(Microsoft)承認Copilot僅是「資訊的整合者,而非權威來源」,並鼓勵用戶驗證內容。

Google (Gemini) 表示對生成式 AI 的限制保持透明,並在應用程式中提醒用戶複查資訊,並建議在法律、醫療和金融事務上諮詢專業人士。

ChatGPT公司OpenAI則承諾將提升準確性,並宣傳其最新的GPT-5模型是「迄今最聰明、最準確」的版本。


專家建議:使用 AI 的「五要點」

《Which?》專家提醒,在AI仍未成熟的階段,使用者必須採取謹慎態度:

1. 明確提問: 在詢問法規或財務資訊時,務必清楚標明地區或司法區,避免 AI 自行推測而產生偏差。

2. 完善提問:人工智慧工具並非總是能一次給出全面答案。如果您閱讀資訊後仍有疑問,須進一步明確問題。清楚地表達想要了解的內容。 

3. 檢查來源:許多人工智慧引擎使用不可靠的資訊來源,甚至根本不公開資訊來源。有些引擎甚至會捏造訊息來源,因此務必檢查 AI 引用資訊的來源和連結,確認其權威性和時效性。

4. 尋求多個意見:不應該只依賴單一資訊來源,可以嘗試2-3個工具,以獲得一系列不同的答案。

5. 專業諮詢: 對於任何涉及法律、重大財務決策或醫療健康的敏感問題,AI 的回答只能作為參考,最終決定必須依賴合格的專業人士。

來源:英國消費者組織《Which?》

延伸閲讀:

 

英國《Which?》研究顯示,Perplexity準確率達71%居冠,其次是Gemini AI Overview (70%)、Google Gemini (69%)。ChatGPT準確率為64%,Meta AI最低為55%。

AI在金融、法律、醫療等領域常提供不準確或具風險的建議,可能導致用戶面臨財務損失或法律問題,應諮詢專業人士。

【📢招Chii爸媽】U Community社群送Chiikawa公仔100隻!


↓【限時搶⚡】LaCool水凝膜護手霜↓

↓輕乳霜質地易吸收、形成鎖水屏障↓

↓輕乳霜質地易吸收、形成鎖水屏障↓