Sztuczna inteligencja a informacje o zespole Draveta. Porównanie chatbotów ChatGPT i Perplexity

Epilepsia Open (ILAE)📅 01.04.2025➕ 22.04.2026Epilepsia Open (ILAE)

Comparative assessment of artificial intelligence chatbots' performance in responding to healthcare professionals' and caregivers' questions about Dravet syndrome

W skrócie

Badacze przetestowali dwa popularne chatboty sztucznej inteligencji - ChatGPT 3.5 i Perplexity - na ich umiejętność udzielania prawidłowych odpowiedzi na pytania o zespół Draveta. Oba narzędzia radziły sobie dobrze w większości przypadków, jednak miały problemy z tematyką leczenia tej rzadkiej formy padaczki.

Szczegóły

Zespół Draveta to jedna z najtrudniejszych postaci padaczki. Pacjenci i opiekunowie szukają informacji na jego temat w różnych źródłach, coraz częściej zwracając się do narzędzi sztucznej inteligencji. Naukowcy postanowili sprawdzić, czy popularne chatboty potrafią udzielać rzetelnych odpowiedzi na pytania o tę chorobę.

Badanie objęło 96 pytań o zespół Draveta - 43 zadane przez pracowników ochrony zdrowia i 53 przez opiekunów chorych. Dwa specjaliści w dziedzinie padaczki niezależnie ocenili jakość odpowiedzi chatbotów. W przypadku rozbieżności opinii trzeci, doświadczony ekspert podejmował ostateczną decyzję.

ChatGPT 3.5 udzielił poprawnych odpowiedzi w 66,7 procent przypadków, a Perplexity w 81,3 procent. Różnica między nimi nie była statystycznie istotna. Jednak ChatGPT 3.5 wypadł znacznie lepiej w odpowiedziach dla opiekunów niż dla specjalistów medycznych. Kiedy chatboty otrzymały możliwość poprawy swoich błędnych odpowiedzi, ChatGPT 3.5 udoskonalił 55,6 procent z nich, a Perplexity aż 80 procent.

Najsłabszą stroną obu narzędzi była tematyka leczenia zespołu Draveta, szczególnie w przypadku pytań zadawanych przez specjalistów. Obie wersje chatbotów udzieliły odpowiedzi oceniane jako kompletne lub obszerne odpowiednio w 73,4 i 75,7 procent przypadków. Jednak tekst generowany przez oba narzędzia był trudny do czytania i wymaga od czytelnika zaawansowanego poziomu czytania. Perplexity wytwarzał znacznie bardziej czytelne teksty niż ChatGPT 3.5.

Badanie pokazuje, że sztuczna inteligencja może być użytecznym narzędziem do wyszukiwania informacji o zespole Draveta, ale ma swoje ograniczenia. Szczególnie w złożonych zagadnieniach związanych z leczeniem obie wersje chatbotów nie są w pełni wiarygodne i wymagają weryfikacji udzielonych informacji.

Najważniejsze ustalenia

Perplexity poprawnie odpowiada częściej (81,3 procent) niż ChatGPT 3.5 (66,7 procent), choć różnica nie jest statystycznie istotna
ChatGPT 3.5 lepiej radzi sobie z pytaniami od opiekunów niż od specjalistów medycznych
Najgorzej oba chatboty radziły sobie z pytaniami dotyczącymi leczenia zespołu Draveta
Perplexity wykazał większe zdolności do samodzielnej korekty błędów (80 procent poprawy) niż ChatGPT 3.5 (55,6 procent)
Tekst generowany przez oba chatboty wymaga zaawansowanego poziomu czytania i jest trudny do zrozumienia

Co to znaczy dla pacjenta

Jeśli szukasz informacji o zespole Draveta w chatbotach sztucznej inteligencji, możesz znaleźć tam wiele prawidłowych odpowiedzi. Jednak pamiętaj, że te narzędzia mogą zawierać błędy, szczególnie dotyczące leczenia. Zawsze warto sprawdzić uzyskane informacje u swojego lekarza lub znaleźć je w wiarygodnych źródłach medycznych.

Pytania, które warto zadać lekarzowi

Czy mogę korzystać z informacji o zespole Draveta uzyskanych z chatbotów sztucznej inteligencji?
Które aspekty informacji z AI powinienem zawsze zweryfikować u lekarza?
Gdzie mogę znaleźć najwiarygodniejsze i najbardziej aktualne informacje o zespole Draveta?
Czy lekarze uważają sztuczną inteligencję za pomocny narzędzie do wstępnego zdobywania wiedzy o tej chorobie?

Ograniczenia badania

Badanie testowało tylko dwa chatboty - ChatGPT 3.5 i Perplexity. Ponadto technologia sztucznej inteligencji szybko się zmienia, więc wyniki mogą nie odzwierciedlać wydajności nowszych wersji tych narzędzi.

Oryginalny abstract (angielski)

Abstract Objective Artificial intelligence chatbots have been a game changer in healthcare, providing immediate, round‐the‐clock assistance. However, their accuracy across specific medical domains remains under‐evaluated. Dravet syndrome remains one of the most challenging epileptic encephalopathies, with new data continuously emerging in the literature. This study aims to evaluate and compare the performance of ChatGPT 3.5 and Perplexity in responding to questions about Dravet Syndrome. Methods We curated 96 questions about Dravet syndrome, 43 from healthcare professionals and 53 from caregivers. Two epileptologists independently graded the chatbots' responses, with a third senior epileptologist resolving any disagreements to reach a final consensus. Accuracy and completeness of correct answers were rated on predefined 3‐point scales. Incorrect responses were prompted for self‐correction and re‐evaluated. Readability was assessed using Flesch reading ease and Flesch–Kincaid grade level. Results Both chatbots had the majority of their responses rated as “correct” (ChatGPT 3.5: 66.7%, Perplexity: 81.3%), with no significant difference in performance between the two (χ2 = 5.30, p = 0.071). ChatGPT 3.5 performed significantly better for caregivers than for healthcare professionals (χ2 = 7.27, p = 0.026). The topic with the poorest performance was Dravet syndrome's treatment, particularly for healthcare professional questions. Both models exhibited exemplary completeness, with most responses rated as “complete” to “comprehensive” (ChatGPT 3.5: 73.4%, Perplexity: 75.7%). Substantial self‐correction capabilities were observed: ChatGPT 3.5 improved 55.6% of responses and Perplexity 80%. The texts were generally very difficult to read, requiring an advanced reading level. However, Perplexity's responses were significantly more readable than ChatGPT 3.5's [Flesch reading ease: 29.0 (SD 13.9) vs. 24.1 (SD 15.0), p = 0.018]. Significance Our findings underscore the potential of AI chatbots in delivering accurate and complete responses to Dravet syndrome queries. However, they have limitations, particularly in complex areas like treatment. Continuous efforts to update information and improve readability are essential. Plain Language Summary Artificial intelligence chatbots have the potential to improve access to medical information, including on conditions like Dravet syndrome, but the quality of this information is still unclear. In this study, ChatGPT 3.5 and Perplexity correctly answered most questions from healthcare professionals and caregivers, with ChatGPT 3.5 performing better for caregivers. Treatment‐related questions had the most incorrect answers, particularly those from healthcare professionals. Both chatbots demonstrated the ability to correct previous incorrect responses, particularly Perplexity. Both chatbots produced text requiring advanced reading skills. Further improvements are needed to make the text easier to understand and address difficult medical topics.

Metadane publikacji

Journal: Epilepsia Open (ILAE)
Data publikacji: 01.04.2025
DOI: 10.1002/epi4.70022
Autorzy: Joana Jesus‐Ribeiro, Eugenia Roza, Bárbara Oliveiros, Joana Barbosa Melo, Mar Carreño
Źródło: Epilepsia Open (ILAE)

Otwórz DOI Pełny tekst