Наскоро публикувана оценка на безопасността в списанието Nature Medicine повдигна сериозни въпроси относно надеждността на функцията ChatGPT Health на OpenAI. Независимото проучване установи, че платформата с изкуствен интелект често не успява да препоръча навременна медицинска помощ, когато е необходимо, и често пропуска признаци на суицидни мисли – грешки, за които експертите предупреждават, че могат да доведат до предотвратими вреди или смърт.
Висок процент на грешки при първоначалната оценка в спешни случаи
Стартирана в ограничен кръг от потребители през януари, ChatGPT Health позволява на потребителите да интегрират медицински записи, за да получават здравни съвети. Въпреки това, изследователи, водени от д-р Ашвин Рамасвами, установиха, че моделът е подценил сериозността на повече от половината от представените му случаи. В сценарии, в които е необходима хоспитализация, изкуственият интелект е съветвал потребителите да останат у дома или да си запазят час за рутинен преглед в 51,6% от случаите.
Изследователският екип създаде 60 реалистични сценария с пациенти, валидирани от медицински специалисти, вариращи от леки заболявания до тежки спешни случаи. Въпреки че системата се справя адекватно с класически спешни случаи, като инсулти, тя има проблеми със сложни ситуации. В един от случаите, включващ пациент с астма, показващ ранни признаци на дихателна недостатъчност, платформата препоръча да се изчака, вместо да се потърси незабавна помощ.
Алекс Руани, докторант в University College London, описа резултатите като „невероятно опасни“, като отбеляза, че погрешното чувство за сигурност може да струва живота на пациентите. Проучването също така разкри, че изкуственият интелект е почти 12 пъти по-вероятно да омаловажава симптомите, ако контекстуалните данни показват, че ситуацията не е сериозна.
Непоследователни механизми за безопасност
Особено обезпокоително откритие беше свързано с реакцията на платформата към кризи, свързани с психичното здраве. Когато изследователите тестваха сценарий, включващ пациент, изразяващ суицидни мисли, банерът за кризисна намеса се появяваше надеждно – докато към досието на пациента не бяха добавени нормални резултати от лабораторни изследвания. След включването на стандартни данни от тестове, предупреждението за безопасност изчезна във всичките 16 опита.
Д-р Рамасвами подчерта, че механизъм за безопасност, който зависи от нерелевантни данни, като резултатите от лабораторни изследвания, е непредвидим и потенциално по-опасен, отколкото липсата на какъвто и да е механизъм за защита. Експертите твърдят, че тези несъответствия подчертават спешната необходимост от независим одит и строги стандарти за безопасност.
Реакция на индустрията
В отговор на откритията, говорител на OpenAI заяви, че изследването не отразява типичната употреба в реални условия и че моделът непрекъснато се актуализира. Въпреки това, изследователите настояват, че вероятният риск от вреда оправдава по-строг контрол. Правни експерти и експерти по политики също така посочиха потенциални проблеми с отговорността за технологичните компании, които внедряват такива чувствителни здравни инструменти без прозрачни протоколи за обучение.

Коментари
Остави коментар