Vytěžování nestrukturovaných dat
Posledních více než čtyřicet let se v branži informačních technologií vše točilo kolem databází. Tedy oblasti velmi
precizně strukturovaných dat.
Když ale budeme chtít lépe porozumět světu kolem nás – většinu potřebných informací nenajdeme v databázích, ale v nestrukturovaných datech mimo ně. Ty dnes představují až přes 85% všech dostupných informací. Co si můžeme představit pod nestrukturovanými daty? Například obsah webových stánek, diskusní fóra na internetu, blogy, sociální sítě – Facebook, Twitter, YouTube apod, emaily, sms zprávy a dále rovněž audio a video záznamy.
Jak se ale můžeme dostat k obsahu těchto nestrukturovaných dat, když se nacházejí mimo databáze počítačů? Odpověď je nasnadě. Pomocí současných vyhledávacích technologií.
Příklad: Potřebujeme znát, co se píše v tuzemských médiích o reformě zdravotnictví. Jak o ní píší hlavní média v zemi: MFDnes, Lidové noviny, iHNed, Právo, Novinky a Aktualně? Kolik článku v nich bylo na toto téma publikováno a kolika autory? Kteří politici jsou zde nejčastěji citováni. V jakém politickém duchu se nesou jejich příspěvky? Jak se na těchto serverech o tomto tématu diskutuje? V jaké rovině se o tématu diskutuje na Facebooku? Sebrané výsledky lze následně analyzovat a vyhodnocovat z různých pohledů, graficky vizualizovat v reportech nebo podle nich sestavovat různé žebříčky. To vše se odehrává okamžitě v reálném čase.
Jedinečnost řešení
Vyhledávací technologie, jsou ojedinělým fenoménem v rámci současných softwarových technologií. Na rozdíl od standardních IT technologií, které jsou dnes již chápány spíše jako komodity pro hladký chod organizace, bez další přidané hodnoty, jsou inteligentní vyhledávače nositeli informací potřebných pro strategické rozhodování a řízení typu: srovnání našich produktů a služeb s konkurencí, bezprostřední provedení a vyhodnocení zadaného průzkumu veřejnosti či ověření shody obsahu několika dokumentů.
Nespornou výhodou vyhledávačů je jejich schopnost pracovat s aktuálními daty v reálném čase. Ne tedy pouze s předzpracovanou množinou víceméně zastaralých dat, s jakou pracují systémy datových skladů v rámci řešení Business Intelligence. Analýzy a na jejich základě přijatá opatření (např. cílené kampaně) jsou hodnověrné a ve shodě s tepem doby. Mezi dotazem a odpovědí uplyne čas jednoho kliknutí na klávesnici.
Softwarové technologie firmy Autonomy jsou dlouhodobě hodnoceny analytiky renomovaných společností: Gartner, Aberdeen, IDC a mnoha dalších, jako špičkové a bezkonkurenční. Technologie Autonomy IDOL je jedinou platformou umožňující současné zpracování textů, audio a video obsahu a vyhledávání nejenom na základě klíčových slov, ale zejména kontextuálního vyhledávání na základě zvoleného obsahu.
Aplikace zaměřené na hloubkové vyhledávání obsahu (vertikální indexace) a vytěžování obsahu např. diskusních skupin ve spojení s vyhledávacími nástroji zaměřenými na plošné vyhledávání (horizontální indexace) relevantních informačních zdrojů - tvoří společně výchozí platformu pro efektivní práci s informacemi.
Vyhledávací platforma Autonomy má k datům striktně agnostický přístup a je jazykově nezávislá, neboť pracuje s jazykem na základě matematického modelování a simulací. Jde o nativně samoučící se platformu, která podle obsahu snadno pozná, že jezevčík, stejně jako bernardýn jsou psi, nebo že raketa může být kosmickou lodí i pracovním nástrojem hráče tenisu. Další ojedinělou vlastností je i automatické nabízení témat příbuzných k vyhledávanému obsahu.
Při své bezkonkurenční výkonnosti je tato technologie zcela nenáročná na uživatelskou obsluhu. Vše se děje automaticky a rovněž potřebný výpočetní výkon a kapacity jsou uživatelsky velmi příznivé a cenově dostupné.
Máte zájem o další informace, prezentaci nebo chcete konkrétní řešení na vytěžování nestrukturovaných dat?
JLIB_HTML_CLOAKING
