Automatikus osztályozás és keresés - tudásbázis alapú megoldás az MTI-nél


 MTI - hazánk legnagyobb hírügynöksége

A Magyar Távirati Irodában naponta 400-450 hírt, 350-400 képet, 15-20 grafikát állítanak elő. A hatalmas anyagmennyiséget természetesen már régóta számítógépen tárolják.

A Sajtóadatbankban például 1987 óta 2,7 millió rekord halmozódott fel. A Fotóbankban több mint 500 ezer képet, a Grafikatárban 10 ezernél több grafikát őriznek.

Feladat

Ügyfeleinek pontosabb és teljesebb kiszolgálása érdekében a Magyar Távirati Iroda vezetősége úgy döntött, hogy a hírek osztályozását és keresését korszerű informatikai alapokra helyezi. Olyan rendszer kiépítését tűzte ki célul, amely a korábban használt kézi osztályozásnál objektívebb és gyorsabb kategorizálást és kulcsszavazást, s egyúttal intelligens, szinte természetes nyelvű keresést tesz lehetővé.

Megoldás

Cégünk tudásbázisra alapuló megoldást ajánlott a hírügynökségnek. A rendszerben az MTI adatbázis-szakemberei ontológia-építő eszközünkkel rögzíthetik a hírekben előforduló személyeket, fogalmakat, intézményeket, eseményeket, valamint az ezek közötti kapcsolatokat. A tudásbázist egyaránt használja az osztályozást végző automatikus kódoló rendszer és a szabadszöveges kereső rendszer.

Tudásbázis építés

Cégünk - a hírügynökség szakembereivel közösen kiterjedt tudásbázis építésébe fogott. A tudásbázisba bekerülnek a cikkekben szereplő személyek, intézmények, fogalmak és események, a közöttük fennálló kapcsolat-rendszerrel együtt. Így egy naprakész online lexikon jön létre.

A rendszer ennek alapján javaslatot tesz a hírek besorolására, mégpedig a Nemzetközi Sajtó-távközlési Tanács, az IPTC szabványosnak tekinthető kategóriái szerint. A szerkesztők és az archívum dolgozói a későbbiekben mind fogalmakat, mind összefüggéseket tehetnek hozzá a már meglévő tudásbázishoz. A tudásbázist földrajzi névgyűjtemény egészít ki.

Keresés IAS orenge keresőmotorral

A tárolt hírtömegben való keresést az Information Access Suite részét képező orenge keresőmotor végzi. Az orenge a tudásbázisban lévő összefüggések és a MorphoLogic nyelvi szoftvereszközeinek felhasználásával olyan esetekben is eredményt ad, amikor a felhasználó nem a hírben szereplő kifejezések alapján fogalmazta meg kérdését.

Állás Java fejlesztőknek!

Csatlakozz egy fiatal csapathoz, ahol nagyválla-lati kötöttségektől men-tesen a munkádra tudsz koncentrálni és élvonalbeli szoftvermegoldások létre-hozásában vehetsz részt.

tovább...

A megoldás alapja

Olvasson tovább...

A tudásbázis, amelyet az MTI folyamatosan bővít és aktualizál, már több mint százezer fogalmat, intézményt, személyt, földrajzi megnevezést és közöttük lévő kapcsolatot tartalmaz.

2009-ben az 1988-tól 2005-ig terjedő időszak közel 2 millió hírét az MTI publikusan is kereshetővé tette.