Sztuczna inteligencja a informacje o zespole Draveta. Porównanie chatbotów ChatGPT i Perplexity
Comparative assessment of artificial intelligence chatbots' performance in responding to healthcare professionals' and caregivers' questions about Dravet syndrome
W skrócie
Badacze przetestowali dwa popularne chatboty sztucznej inteligencji - ChatGPT 3.5 i Perplexity - na ich umiejętność udzielania prawidłowych odpowiedzi na pytania o zespół Draveta. Oba narzędzia radziły sobie dobrze w większości przypadków, jednak miały problemy z tematyką leczenia tej rzadkiej formy padaczki.
Szczegóły
Zespół Draveta to jedna z najtrudniejszych postaci padaczki. Pacjenci i opiekunowie szukają informacji na jego temat w różnych źródłach, coraz częściej zwracając się do narzędzi sztucznej inteligencji. Naukowcy postanowili sprawdzić, czy popularne chatboty potrafią udzielać rzetelnych odpowiedzi na pytania o tę chorobę.
Badanie objęło 96 pytań o zespół Draveta - 43 zadane przez pracowników ochrony zdrowia i 53 przez opiekunów chorych. Dwa specjaliści w dziedzinie padaczki niezależnie ocenili jakość odpowiedzi chatbotów. W przypadku rozbieżności opinii trzeci, doświadczony ekspert podejmował ostateczną decyzję.
ChatGPT 3.5 udzielił poprawnych odpowiedzi w 66,7 procent przypadków, a Perplexity w 81,3 procent. Różnica między nimi nie była statystycznie istotna. Jednak ChatGPT 3.5 wypadł znacznie lepiej w odpowiedziach dla opiekunów niż dla specjalistów medycznych. Kiedy chatboty otrzymały możliwość poprawy swoich błędnych odpowiedzi, ChatGPT 3.5 udoskonalił 55,6 procent z nich, a Perplexity aż 80 procent.
Najsłabszą stroną obu narzędzi była tematyka leczenia zespołu Draveta, szczególnie w przypadku pytań zadawanych przez specjalistów. Obie wersje chatbotów udzieliły odpowiedzi oceniane jako kompletne lub obszerne odpowiednio w 73,4 i 75,7 procent przypadków. Jednak tekst generowany przez oba narzędzia był trudny do czytania i wymaga od czytelnika zaawansowanego poziomu czytania. Perplexity wytwarzał znacznie bardziej czytelne teksty niż ChatGPT 3.5.
Badanie pokazuje, że sztuczna inteligencja może być użytecznym narzędziem do wyszukiwania informacji o zespole Draveta, ale ma swoje ograniczenia. Szczególnie w złożonych zagadnieniach związanych z leczeniem obie wersje chatbotów nie są w pełni wiarygodne i wymagają weryfikacji udzielonych informacji.
Najważniejsze ustalenia
- Perplexity poprawnie odpowiada częściej (81,3 procent) niż ChatGPT 3.5 (66,7 procent), choć różnica nie jest statystycznie istotna
- ChatGPT 3.5 lepiej radzi sobie z pytaniami od opiekunów niż od specjalistów medycznych
- Najgorzej oba chatboty radziły sobie z pytaniami dotyczącymi leczenia zespołu Draveta
- Perplexity wykazał większe zdolności do samodzielnej korekty błędów (80 procent poprawy) niż ChatGPT 3.5 (55,6 procent)
- Tekst generowany przez oba chatboty wymaga zaawansowanego poziomu czytania i jest trudny do zrozumienia
Co to znaczy dla pacjenta
Jeśli szukasz informacji o zespole Draveta w chatbotach sztucznej inteligencji, możesz znaleźć tam wiele prawidłowych odpowiedzi. Jednak pamiętaj, że te narzędzia mogą zawierać błędy, szczególnie dotyczące leczenia. Zawsze warto sprawdzić uzyskane informacje u swojego lekarza lub znaleźć je w wiarygodnych źródłach medycznych.
Pytania, które warto zadać lekarzowi
- Czy mogę korzystać z informacji o zespole Draveta uzyskanych z chatbotów sztucznej inteligencji?
- Które aspekty informacji z AI powinienem zawsze zweryfikować u lekarza?
- Gdzie mogę znaleźć najwiarygodniejsze i najbardziej aktualne informacje o zespole Draveta?
- Czy lekarze uważają sztuczną inteligencję za pomocny narzędzie do wstępnego zdobywania wiedzy o tej chorobie?
Ograniczenia badania
Badanie testowało tylko dwa chatboty - ChatGPT 3.5 i Perplexity. Ponadto technologia sztucznej inteligencji szybko się zmienia, więc wyniki mogą nie odzwierciedlać wydajności nowszych wersji tych narzędzi.