Търсене в неструктурирана информация

Търсенето в неструктурирана информация е от определящо значение в разпределени или глобални мрежи.

Основни понятия и тези

Понятието за неструктурираност на данните не е строго детерминирано поради голямото разнообразие на формати, източници и начини на ползване. Терминът би могъл да се разгледа по следния начин:

  1. Като структура от даннни, което не е формално дефинирана
  2. Информация, чиято обработка не е известна или не може да се определи по време на обработка
  3. Детерминираност или частична струтурираност, която е неочаквана и частично може да се анализира и обработи

Неструктурирани данни (или неструктурирана информация ) се отнасят до информация, която не предполага наличието на предварително определен модел на данните, или не са организирани в предварително определен начин. Неструктурирани информация обикновено е текст, но може да съдържа данни и полета, като например дати, цифри, факти, анотации.През 1998 г. Merrill Lynch оценява, че около 80-90 % от всички потенциално използваеми бизнес информация може да произхожда в неструктурирана форма. Очакванията са, че данните ще нараснат до 40 zettabytes до 2020 г. , което води до ръст от 50 пъти от началото на 2010 година. Computer World посочва, че неструктурирана информация може да представляват повече от 70% - 80% от всички данни в организации.

Обработка и търсене

Техники, като data mining, text analytics и noisy-text analytics, предоставят различни начини и модели за интерпретиране, индексирани и търсене в неструктурирана информация. Обикновено технологията включва маркиране на области от информацията и добавяне на мета-данни, което в последствие подпомага алгоритмите за търсене. Неструктурираната информация може да бъде обогатена и така да улесни процеса на търсене и откриване в големи масиви от документи.

Следваща съществена стъпка при търсене на неструктурирана информация е паралелното изпълнение на заявки в разпределена среда. Ползите от този подход са много - автоматично обобщаване на резултатите, разпределяне на натоварването върху няколко машини, едновременно търсене в хетерогенни източници и др. Поради разнотипния характер на данните особено подходяща технология за решение на тази задача са изчислителните grid среди.

Търсачките са станали популярни инструменти за индексиране и търсене чрез тези данни, особено на текст и семантични анотации. Търсачките от своя страна могат да бъдат и специализирани в конкретни приложин области.

BioAGE и модула за търсене WeBioGrid предоставят широки възможности за индексирани и търсене в неструктурирана информация и в частност - търсене в електронни здравни досиета (ЕЗД). Всяко ЕЗД може да съдържа информация от различни източници, но същевременно да касае един субект. Например данни за пациент взети от лаборатории, болници, здравна каса и др.


Grid Computing

Grid средата се състои от локални системи за управление (операционна система, програми за управление на потоци и опашки и т.н.), правила за управление, специализирани приложения (научни, инженерни, комерсиални) с различни системни изисквания (процесор, входно-изходни операции, памет, ползване на мрежа и др.) и различни по вид и количество ресурси. Ресурсите могат да бъдат създавани и ползвани. Потребителите на Grid най-общо могат да се разделят на две групи:

  1. производители (известни са още като притежатели) – създават ресурси.
  2. консуматори – ползват ресурси.


Същественото е, че и двете категории потребители могат да работят на различни машини/процесори, компютри, мрежи, сгради или дори държави. Методите на управление на ресурсите се разделят в три групи:

  1. централизирано
  2. децентрализирано
  3. йерархично

Традиционният подход на задачата за управление е правилата да се централизират. Това изисква информацията за състоянието на ресурсите и правилата за тяхното управление да бъдат разположени географски на едно място. Съвместното използване на правила и ресурси се организира чрез т.нар. матрици на решенията. Конструирането на широко мащабни Grid системи ясно показва, че централизираното изграждане на сложна матрица е неудачно. Това е така поради две основни причини: първо защото ресурсите може да са разположени географски на много места и тяхното локално управление да е специфично; второ защото влиянието на локалните правила върху общите в една централизирана матрица може да се окаже негативно върху производителността на Grid-а, а в някои случаи и фатално за стабилността на цялата система. Поради тези причини децентрализирания или йерархичния подход са предпочитани при изграждането на Grid. Всеки един от тези подходи се отличава с различни методи за управление на ресурсите.

Grid системите се характеризират с четири основни свойства:

  1. Хетерогенност – Това свойство на Grid описва възможностите да се ползват едновременно различни по вид ресурси. Ресурсите се класифицират като хетерогенни, тогава когато ползват различни технологии. Колкото е по-висока хетерогенността на Grid-а, толкова повече се въвеждат правила за съвместно ползване.
  2. Скалируемост – Grid системите могат да работят с различен брой ресурси – от няколко до десетки хиляди. С нарастването на броя на ресурсите се понижава производителността на системите. Колкото повече Grid приложения изискват големи количества ресурси, толкова повече и времето за обслужването им нараства.
  3. Адаптивност – В Grid системите има голяма вероятност избран ресурс да не бъде намерен или достъпът до него да бъде отказан. С колкото повече ресурси Grid разполага с толкова повече се увеличава риска от отказ за ползване. Адаптивността на Grid системата е свойството тя да намира динамично алтернатива, ако такава съществува. Счита се, че колкото по-добра е адаптивността на Grid-а, толкова по-голяма е нейната ефективност.
  4. Автономност – Това свойство на Grid системите позволява да се оцени до каква степен ресурсите могат да се съхраняват и ползват от различни географски места. Автономността изисква Grid да има добре развита логика за удостоверяване правото на ползване на ресурсите.

BioAGE е реализация на Grid среда, която предоставя възможности за създаване, разпростарнение и потребление на хетерогинни информационни и изчислителни ресурси.

Термография

Инфрачервената термография е доказана техника за безконтактно температурно измерване на повърхности на обекти. Модерните термографи предоставят много добри възможности за моментно или непрекъснато наблюдение на повърхностите. В резултат на работата цифровите термографи създават файлове в специализиран или стандартен формат, като BMP или JPEG. Производителите на тези устройства разширяват и подобряват тяхната функционалност като интегрират множество функции за междинна обработка на изображенията (филтриране, контурна сегментация и др.), както и разширени функции за допълнителни измервания. По този начин термографите са се превърнали в мощно професионално средство за температурно измерване в редица приложни и научни области.

Човешкото тяло излъчва топлина, която се губи в околната среда. Преносният слой на произведената топлина и заобикалящата среда е човешката кожа, през която тялото извършва терморегулация. В образната диагностика инфрачервената обработка на компютърни изображения е може би най- ефективната техника за изследване разпределението на температурата по повърхността на човешкото тяло. Чрез наблюдение на избрани анатомични области и отчитане на значителни температурни колебания, инфрачервеното измерване е един обективен и безконтактен метод за диагностика. Днес инфрачервената диагностика се прилага в практиката при изследване на рак в ранни стадии, повърхностна болка, артрит, ставни и зъбни проблеми и др.. Прилага си и като допълнителен метод за анализ на изображения генерирани след други диагностични процедури, като сканиране с ултразвук или рентгенови лъчи.

Сензорите на термографите преобразуват електромагнитната инфрачервена радиация в цифров компютърен образ. Процесът на дискретизиране генерира цветни изображения, като кодира топлинния интензитет във всеки пиксел. За целта се използва побитова комбинация от трите стандартни цветни канала RGB. Специфичната цветна комбинация в зададен температурен диапазон се нарича термографска цветна палитра. Температурната информация в инфрачервените изображения е ключов фактор при автоматизирането на цифрови диагностични изследвания. Практически проблем е, че тази информация се губи в случаите, когато цветните графични данни се съхраняват в стандартни файлови формати. Нещо повече, много често цифровите термографи добавят допълнителни графични етикети, които се записват директно върху генерираните изходящи изображения. По този начин паразитната информация в изображението нараства и по-нататъшния анализ на тези файлове може да се затрудни значително.

Чрез Visual Grid Orchestrator меже да се създадат различни тестови сценарии за анализ и регионална сегментация на инфрачервени изображения. Разработено е примерно приложение (VGO IRT Demo), което демострира извличане на изгубената температурна информация от термограми, която е записана в стандартни файлови формати.

Back to top