Question answering

Question answering (QA), u prijevodu „odgovaranje na pitanja“, jedan je od načina pretraživanja informacija. On pronalazi odgovore na pitanja postavljena govornim jezikom. QA uključuje širok opus vrsta pitanja na koja može odgovoriti; činjenice, nabrajanja, definicije, pitanja „zašto“ i „kako“, hipotetska,... Zbirke za pretragu odgovora variraju od malih lokalnih kolekcija dokumenta, preko dokumenata internih organizacijado pretrage cijelog "world wide weba".

Postoje dvije vrste QA-a, „određeno-područje“ (closed-domain) i „opće-područje“ (open-domain). Closed-domain se bavi odgovaranjem na pitanja iz određenog područja, dok open-domain odgovara na pitanja o svemu, oslanjajući se na svjetsko znanje i opću ontologiju. Open-domain sustav ima više dostupnih podataka iz kojih se može pronaći traženi odgovor.

Povijest uredi

Sustavi za odgovaranje na pitanja su se počeli razvijati u šezdesetim godinama prošlog stoljeća. Najpoznatiji sustavi tog doba su bili „Baseball“ i „Lunar“. „Baseball“ je odgovarao na pitanja o američkoj bejzbolskoj ligi u periodu jedne godine, dok je „Lunar“ odgovarao na pitanja o geološkim analizama kamenja vraćenog s misije na Mjesec. Posebnost prvih sustava leži u tome što su jezge baza podataka i sustavi znanja vlastoručno pisali stručnjaci izabranog područja. Sedamdesete i osamdesete godine prošlog stoljeća su obilježili sustavi poput „Unix Consultanta“ i „LILOG-a“. Prvi je odgovarao na pitanja povezana s Unixovim operativnim sustavom. „LILOG“ je davao informacije turističkog sadržaja o gradovima u Njemačkoj. Iako su oba sustava ostali na stupnju jednostavnih demonstracija, pomogli su razvoju teorija o računalnoj lingvistici i računalnom zaključivanju. U kasnim devedesetim, na godišnjoj konferenciji o pretraživanju teksta (Text Retrieval Conference), su sudjelovali sustavi za odgovaranje na pitanja od kojih se očekivalo da odgovore na pitanja o bilo kojoj temi, pretražujući zbirke teksta koje su se mijenjale iz godine u godinu. To nadmetanje je potaknulo istraživanje i razvoj sustava za odgovaranje na pitanja (QA). Već 2004. najbolji sustav na natjecanju je postigao 77 % točnih, na činjenicama temeljenih, odgovora. Prošle godine na istoj konferenciji su uključene i zbirke blog podataka koji sadrže i govorni, a ne samo književni jezik.

Arhitektura uredi

QA sustave sačinjavaju: „modul za klasificiranje pitanja“ (question classifier module) koji određuje vrstu pitanja i vrstu odgovora, „modul za klasificiranje dokumenata“ (document retrieval module), on prepoznaje dokument ili odlomak u dokumentu koji najvjerojatnije sadrži odgovor, „filter“, odabire male dijelove teksta koji sadrže nizove podataka kao i očekivani odgovor te „modul za izolaciju samog odgovora“ (answer extraction module) koji traži daljnje indikatore u tekstu kako bi odredio može li kandidat za odgovaranje na pitanje zbilja dati točan odgovor.

Metode uredi

QA sustavi ovise o kvaliteti zbirke koju pretražuju. Ako u zbirci ne postoji dokument koji sadrži odgovor, QA sustav ne može ni dati odgovor. U velikim zbirkama kao što je web, vrlo je vjerojatno da će grumeni informacija biti raspršeni u mnogo različitih smjerova, različitim kontekstima i dokumentima, što dovodi do dvije beneficije:

ako nam se informacija pojavljuje u nekoliko različitih oblika, opterećenje QA sustava koji provodi kompleksne operacije da razumije tekst, je smanjeno
točan odgovor se može odvojiti od onih „lažno pozitivnih“, oslanjajući se na to da će se točan odgovor pojaviti više puta u dokumentima od onih netočnih.

Jedan od načina pretrage koristi ključne riječi kako bi pronašao zanimljive ulomke i rečenice u pronađenim dokumentima, koje potom filtrira prema željenoj vrsti odgovora. Rangiranje odgovora se radi prema redoslijedu riječi ili sličnosti s upitom. Pojedini sustavi koriste obrasce u nadi da je odgovor samo preformulirano pitanje. Na primjer, ako je pitanje „Što je TV?“, sustav bi pronašao poveznicu „Što je X?“ i tražio dokumente koji počinju sa „X je Y.“. Ovaj način je jako efikasan ako tražimo informacije tipa imena, datumi, lokacije.

Drugi način pretrage je napredniji, u njemu se koriste sintaktički, semantički i kontektualni procesi kako bi se pronašao odgovor. Ti sustavi često koriste i „svjetsko znanje“ koje pronalaze u ontologijama („WordNet“ i „Suggested Upper Merged Ontology – SUMO“) kako bi povećali dostupne izvore pomoću semantičkih poveznica i definicija. Za upite koji odgovaraju na pitanja „kako“ i „zašto“, hipotetske postulate, dvosmislena pitanja i slična, treba dublje razumijevanje pitanja kako bi se uspio pronaći odgovor.

Jedna od metoda je i uzimanje odgovora koji se zatim pretvori u pitanje. Npr. „Volim jesti ribu.“ „Zašto volim jesti ribu?“ „Zbog okusa.“ „Što je u okusu ribe tako dobro?“...

Problemi uredi

Grupa istraživača je 2002. godine, pisajući plan istraživanja „odgovaranja na pitanja“, otkrila sljedeće probleme:

Kategorije pitanja (Question classes)
Obrada pitanja (Question processing)
Kontekst i QA (Context and Q&A)
Baze podataka za QA (Data sources for Q&A)
Izoliranje odgovora (Answer extraction)
Formuliranje odgovora (Answer formulation)
Brzina pronalaženja odgovora (Real time question answering)
Višejezično odgovaranje na pitanja (Multi-lingual question answering)
Međudjelatan QA (Interactive Q&A)
Napredno zaključivanje za QA (Advanced reasoning for Q&A)
Korisnički profili za QA (User profiling for Q&A)