Powstała wyszukiwarka wspierająca walkę z COVID-19

Od lutego do maja 2020 roku liczba prac naukowych opublikowanych na temat COVID-19 wzrosła z 29 000 do ponad 138 000. W miarę jak naukowcy na całym świecie będą zwiększać swoje zaangażowanie, liczba ta będzie rosnąć wykładniczo i prognozuje się, że do końca 2020 r. wzrośnie do ponad 1 000 000 publikacji.

To dobra wiadomość dla środowiska medycznego i decydentów pracujących nad szczepionkami oraz nowymi metodami leczenia – ale tylko wtedy, gdy są w stanie skutecznie przeszukiwać rosnącą liczbę dostępnych już wyników badań. Ponieważ tego typu dokumenty są bogate w dane i mogą mieć setki stron, znalezienie tego, czego szukamy, szczególnie przy ograniczonym przez pandemię czasie, może być wyzwaniem.

Salesforce Research wykorzystało dane z projektu CORD-19 Challenge i stworzyło COVID-19 Search, wyszukiwarkę napędzaną poprzez sztuczną inteligencję. Wszystko to po to, aby w prosty i szybki sposób dostarczyć naukowcom i badaczom najbardziej istotne badania na temat COVID-19. W ten sposób rosnąca liczba publikacji staje się łatwo dostępna dla zainteresowanych.

Wyszukiwanie publikacji naukowych wymaga zastosowania innych technik niż tradycyjne wyszukiwarki dopasowujące słowa kluczowe. Istotne jest, aby wyszukiwarka COVID-19 interpretowała właściwe znaczenie konkretnej frazy w danym wyszukiwaniu, wychodząc poza wyszukiwanie wyników oparte na częstotliwości występowania słów w dokumentach. W przypadku długich dokumentów równie cenne jest szybkie odnalezienie odpowiednich fragmentów w wynikach wyszukiwania.

COVID-19 Search rozwiązuje ten problem, łącząc przeszukiwanie tekstu i NLP – w tym wyszukiwanie semantyczne, odpowiadanie na pytania łączące dane i analizę podsumowań przeszukiwanych badań. Wszystko to w celu lepszego zrozumienia pytania i przedstawienia najistotniejszych wyników naukowych.

Kolejność słów w wyszukiwaniu naukowym jest bardzo specyficzna, a niewielka zmiana w ich kolejności może drastycznie zmienić znaczenie. Dla przykładu, pytanie „What expression pathways does SARS-CoV-2 induce?” różni się zasadniczo od zapytania „What is the expression pathway of SARS-CoV-2?”. Wyniki muszą być zgodne z kontekstem zapytania.

„Połączyliśmy zatem wyszukiwanie informacji (IR) z naszymi mocnymi stronami w NLP, aby wzmocnić wyszukiwanie semantyczne, które modeluje znaczenie kryjące się za pytaniem. Wykorzystując ostatnią pracę o zgodności zdaniowej (Reimers i in. 2019), podzieliliśmy publikacje naukowe na pary akapitów i cytowań, które wykorzystano do treningu algorytmów w celu ustalenia, czy cytowanie znalazło swoje odzwierciedlenie w akapicie. Ta sama sztuczna inteligencja może być użyta do zadania zapytania i znalezienia odpowiednich akapitów w całym zestawie dokumentów” – wyjaśnia firma.

Wyszukiwanie semantyczne przeszukuje ogromną liczbę publikacji dokumentów i zwraca podzbiór może 100 lub 1000 wyników. Dokumenty te poddajemy analizie sztucznej inteligencji, która traktuje zapytanie użytkownika jako konkretne pytanie i dokłada wszelkich starań, aby wygenerować odpowiedź z pobranych dokumentów.

Jeśli odpowiedź jest zawarta w pojedynczym dokumencie, to COVID-19 Search może ponownie uszeregować listę dokumentów tak, aby wyświetlić właśnie ten dokument. Jest to możliwe dzięki naszej ostatniej pracy nad odpowiedziami na pytania z wielu źródeł (Asai i in., 2020), która polega na przeszukiwaniu wielu dokumentów w celu znalezienia odpowiedzi.

Przykładowo ktoś może zadać pytanie dotyczące COVID-19 (choroba), które rzeczywiście odnosi się do SARS CoV-2 (wirus), takie jak „Jak COVID-19 wnika do komórek pacjenta?” Moduł AI odpowiadający na pytania znajduje najpierw akapit w jednym dokumencie, który wyjaśnia, w jaki sposób COVID-19 jest powiązany z SARS CoV-2, a następnie znajduje fragment w innym dokumencie, który wyjaśnia, w jaki sposób SARS CoV-2 wnika do komórek w określony sposób. Przeszukując różne dokumenty, COVID-19 Search może pomóc użytkownikom znaleźć bardziej dokładne wyniki.

COVID-19 Search wykorzystuje streszczenia abstraktów (Kryscinski i inni, 2018), który odczytuje pojedynczy dokument lub zestaw dokumentów, a następnie generuje ich streszczenie.

„Wykorzystujemy ostatnie postępy w modelowaniu językowym, aby wygenerować krótkie podsumowanie, a następnie ponownie uszeregować wyniki w oparciu o dokumenty, które najbardziej do niego pasują. Działa to, jak abstrakt pracy naukowej, który w krótkim paragrafie ujmuje kluczowe wyniki wyszukiwania” – wyjaśnia Salesforce Research.

W odpowiedzi na CORD-19 Challenge, konferencja TREC stworzyła TREC-COVID Information Retrieval (IR) Challenge. Konkurs ten – powstał w celu obiektywnej oceny wyszukiwarek COVID-19 – stał się katalizatorem współpracy pomiędzy społecznością badaczy NLP i IR, pozwalając im na znacznie szybsze wykorzystanie swojej pracy i rozwój technik. Mamy nadzieję, że inne zespoły wezmą wyniki naszych prac i rozwiną je dalej.

COVID-19 Search ma na celu służyć tym, którzy stoją na pierwszej linii frontu – lekarzom, naukowcom i władzom, aby przyspieszyć poszukiwanie skutecznych szczepionek i metod leczenia. CORD-19 i TREC-COVID to dopiero początek. Społeczność informatyczna jest w dużym stopniu oparta na współpracy i będziemy nadal współpracować oraz dzielić się naszymi badaniami, aby pomóc w opracowaniu jeszcze lepszych wyszukiwarek dla tej pandemii, ale i dla przyszłych wyzwań.

(ISBtech)