연구에 따르면 AI 챗봇은 여전히 뉴스 정확성에 어려움을 겪고 있습니다.
Google의 Gemini 챗봇이 전체 언론 매체를 조작하고 가짜 보고서를 게시한 것으로 밝혀진 후 한 달 동안 진행된 실험에서 뉴스 소스로서 생성 AI 도구의 신뢰성에 대한 새로운 우려가 제기되었습니다. 이 연구 결과는 해당 연구를 수행한 The Conversation에 의해 처음 보고되었습니다.
이 실험은 컴퓨터 과학을 전문으로 하는 저널리즘 교수가 주도했으며 4주 동안 7개의 생성 AI 시스템을 테스트했습니다. 매일 도구는 퀘벡에서 가장 중요한 다섯 가지 뉴스 이벤트를 나열 및 요약하고 중요도에 따라 순위를 매기고 기사에 대한 직접 링크를 소스로 제공하도록 요청받습니다. 테스트된 시스템에는 Google의 Gemini, OpenAI의 ChatGPT, Claude, Copilot, Grok, DeepSeek 및 Aria가 포함되었습니다.
가장 놀라운 실패는 Gemini가 가상의 뉴스 매체를 발명했다는 것입니다. examplefictif.ca – 그리고 2025년 9월 퀘벡에서 스쿨버스 운전사들의 파업을 허위로 신고했습니다. 실제로는 기술적인 문제로 라이온 일렉트릭 버스가 철수하면서 파업이 발생했습니다. 이것은 고립된 사건이 아니었습니다. 실험 중에 수집된 839개의 응답에서 AI 시스템은 정기적으로 허위 소스를 인용하고, 깨지거나 불완전한 URL을 제공하거나, 실제 보고서를 잘못 표시했습니다.
이미 점점 더 많은 사람들이 뉴스에 AI 챗봇을 사용하고 있기 때문에 이번 연구 결과는 중요합니다.
로이터 연구소의 디지털 뉴스 보고서에 따르면 캐나다인의 6%가 2024년까지 생성 인공 지능을 뉴스 소스로 신뢰합니다. 이러한 도구가 사실을 불러일으키거나, 보고서를 왜곡하거나, 결론을 조작할 때, 특히 답변이 명확한 면책 조항 없이 자신있게 제시될 경우, 잘못된 정보를 퍼뜨릴 위험이 있습니다.
사용자에게 위험은 실용적이고 즉각적입니다. 전체 응답의 37%만이 합법적인 전체 소스 URL을 포함했습니다. 절반 미만의 사례에서 요약이 완전히 정확했지만, 많은 경우 부분적으로만 정확하거나 미묘하게 오해의 소지가 있었습니다. 어떤 경우에는 AI 도구가 뒷받침되지 않는 ‘생성적 결론’을 추가하여 스토리에 인간 소스에서 언급한 적이 없는 ‘토론을 다시 불러일으켰거나’ 긴장감을 강조했다고 주장했습니다. 이러한 추가 사항은 통찰력 있는 것처럼 보일 수 있지만 단순히 존재하지 않는 내러티브를 만들 수 있습니다.

오류는 제조에만 국한되지 않았습니다.
일부 도구는 망명 신청자의 처우를 잘못 보고하거나 주요 스포츠 행사의 승자를 잘못 식별하는 등 실제 이야기를 왜곡했습니다. 다른 사람들은 설문 조사 데이터나 개인적인 상황에서 기본적인 사실 오류를 범했습니다. 종합해 보면, 이러한 문제는 생성 AI가 여전히 뉴스 요약과 맥락 창안을 구별하는 데 어려움을 겪고 있음을 시사합니다.
앞으로 The Conversation이 제기한 우려는 해당 부문에 대한 보다 폭넓은 검토와 일치합니다. 22개 공공 서비스 미디어 조직에 대한 최근 보고서에 따르면 AI로 생성된 뉴스 응답의 거의 절반에 소싱 문제부터 심각한 부정확성에 이르기까지 중요한 문제가 포함되어 있는 것으로 나타났습니다. AI 도구가 일상 정보 및 검색 습관에 더욱 통합됨에 따라 이번 조사 결과는 분명한 경고를 강조합니다. 즉, 뉴스의 경우 생성 AI는 신뢰할 수 있는 기록 소스가 아니라 기껏해야 출발점으로 취급되어야 한다는 것입니다.
