Проучването на изследователи от университета Станфорд и университета Карнеги Мелън, публикувано по-рано този месец, тества как 11 големи езикови модела (LLM) отговарят на потребителски запитвания, търсещи съвет по лични въпроси, включително случаи, включващи манипулация и измама.
За да се установи човешката базова линия, една от техниките, използвани от изследователите, се основава на публикации от общност на Reddit, наречена „Am I The A**hole“, където потребителите публикуват за своите междуличностни дилеми, за да поискат мнението на общността за това коя страна е виновна.

Изследователите са използвали публикации, в които членовете на общността са преценили, че авторът на публикацията греши, за да проверят дали LLMs, когато им бъдат дадени същите сценарии, ще се съгласуват с тази предимно англоговоряща онлайн група от хора.
При този тест, Qwen2.5-7B-Instruct на Alibaba Cloud, пуснат през януари, беше установено, че е най-подлизурският модел, противоречащ на присъдата на общността – заставайки на страната на плаката – в 79 процента от случаите. Вторият най-висок е DeepSeek-V3, който го направи в 76 процента от случаите.
