Търсене в неструктурирана информация

Търсенето в неструктурирана информация е от определящо значение в разпределени или глобални мрежи.

Основни понятия и тези

Понятието за неструктурираност на данните не е строго детерминирано поради голямото разнообразие на формати, източници и начини на ползване. Терминът би могъл да се разгледа по следния начин:

  1. Като структура от даннни, което не е формално дефинирана
  2. Информация, чиято обработка не е известна или не може да се определи по време на обработка
  3. Детерминираност или частична струтурираност, която е неочаквана и частично може да се анализира и обработи

Неструктурирани данни (или неструктурирана информация ) се отнасят до информация, която не предполага наличието на предварително определен модел на данните, или не са организирани в предварително определен начин. Неструктурирани информация обикновено е текст, но може да съдържа данни и полета, като например дати, цифри, факти, анотации.През 1998 г. Merrill Lynch оценява, че около 80-90 % от всички потенциално използваеми бизнес информация може да произхожда в неструктурирана форма. Очакванията са, че данните ще нараснат до 40 zettabytes до 2020 г. , което води до ръст от 50 пъти от началото на 2010 година. Computer World посочва, че неструктурирана информация може да представляват повече от 70% - 80% от всички данни в организации.

Обработка и търсене

Техники, като data mining, text analytics и noisy-text analytics, предоставят различни начини и модели за интерпретиране, индексирани и търсене в неструктурирана информация. Обикновено технологията включва маркиране на области от информацията и добавяне на мета-данни, което в последствие подпомага алгоритмите за търсене. Неструктурираната информация може да бъде обогатена и така да улесни процеса на търсене и откриване в големи масиви от документи.

Следваща съществена стъпка при търсене на неструктурирана информация е паралелното изпълнение на заявки в разпределена среда. Ползите от този подход са много - автоматично обобщаване на резултатите, разпределяне на натоварването върху няколко машини, едновременно търсене в хетерогенни източници и др. Поради разнотипния характер на данните особено подходяща технология за решение на тази задача са изчислителните grid среди.

Търсачките са станали популярни инструменти за индексиране и търсене чрез тези данни, особено на текст и семантични анотации. Търсачките от своя страна могат да бъдат и специализирани в конкретни приложин области.

BioAGE и модула за търсене WeBioGrid предоставят широки възможности за индексирани и търсене в неструктурирана информация и в частност - търсене в електронни здравни досиета (ЕЗД). Всяко ЕЗД може да съдържа информация от различни източници, но същевременно да касае един субект. Например данни за пациент взети от лаборатории, болници, здравна каса и др.


Back to top