LMSYS가 2주간 다양한 사례를 통해 투표한 결과 오픈AI ‘GPT-4o’가 챗본과 멀티모달에 1위가 되었다.
이번 테스트에서는 언어 능력을 기준으로 하던 것을 이미지 능력으로 확장한 것인데, 사용자들의 이미지 설명이나 수학 문제 풀이, 문서 이해, 밈 설명, 스토리 작성 등 다양한 사례의 결과를 비교하여 투표했다고 한다.
최근 인기를 관심을 받고 있는 claude 3.5 sonnet는 코딩과 하드 프롬프트 영역에서 1위에 올랐다.
아래 표의 x축은 ‘언어’와 ‘비전’을 y축은 ‘성능’을 나타내는데,
GPT-4o, claude-3.5-sonnet, gemini-1.5-pro-0514, gpt-4-turbo-04-09는 시각 능력에서 더 높은 성능을 보이고,
claude-3-opus, gemini-1.5-flash-0514, claude-3-sonnet, claude-3-haiku는 시각 능력에서 성능이 낮아진다.
언어는 gpt-4o가 가장 높고, claude-3.5-sonnet이 그 다음이며
시각은 gpt-4o와 claude-3.5-sonnet이 거의 동등한 최고 성능을 보인다.