Почему сбор данных важен для интеллектуальной автоматизации

Интеллектуальная автоматизация лежит в основе многих бизнес-проектов, направленных на упрощение утомительных административных процессов. Это идеальная технология для автоматизации не только повторяющихся циклов, но и когнитивных (или мыслительных) задач.
Благодаря когнитивной автоматизации бизнес-системы теперь могут читать и понимать документы, чтобы обрабатывать их автоматически и в режиме реального времени.
Это возможно благодаря машинному обучению и другим методам искусственного интеллекта, которые составляют основу интеллектуальной автоматизации или гипер-автоматизации.

Основы извлечения данных

OCR или оптическое распознавание символов существует уже почти столетие. Тем не менее технология, а также определение OCR сильно изменились за эти десятилетия.
Можно выделить 2 определения: «традиционное» и «более широкое». Традиционное определение – распознавать символы на изображении. В последнее время термин OCR все чаще используется для обозначения значений символов.

OCR (от изображения к тексту).

Итак, что такое OCR? Проще говоря, оптическое распознавание символов – это метод распознавания символов, появляющихся на изображении. Это перевод символов на бумаге в символы на цифровом экране.
Эта технология уже достаточно развита в распознавании печатных документов, которые были напечатаны, а затем сфотографированы или отсканированы. В настоящее время распознавание почерка остается более сложной задачей.
Текст, написанный на компьютере, всегда идентичен и имеет небольшой промежуток между символами. В рукописном тексте слова часто пишутся одним росчерком пера. Это затрудняет распознавание каждого символа по отдельности.

Поиск информации (от текста к информации).

Теперь, когда документы оцифрованы, пришло время извлечь соответствующие данные из цифрового буквенного супа. Здесь в игру вступают более передовые технологии.
Давайте посмотрим на пример бухгалтерской фирмы. Они хотят собрать такую информацию, как дата выставления счета, общая сумма счета, срок оплаты и т. д.
Прежде всего, именно здесь технология должна иметь возможность отличать сумму от номера банковского счета и дату от структурированного сообщения.
Когда существует несколько случаев, например, суммы, необходимо определить, какая из этих сумм является общей суммой счета. Есть разные способы выполнения этой задачи, поэтому давайте рассмотрим 3 основных подхода к решению этой проблемы сбора данных.

3 метода поиска информации

Сбор данных может произойти только после того, как документы оцифрованы (с технологией OCR). Но как научить компьютер, какой набор символов он должен извлечь, а какие оставить в покое?

1. На основе шаблона.

Старые технологии сбора данных часто работают с шаблонами и правилами на основе местоположения.
С помощью решения на основе шаблонов нужно выбрать 50 лучших поставщиков и указать, где в документе находится информация, которую следует извлечь.
Затем это жестко запрограммировано поставщиком системы сбора данных в определенных наборах правил. Они программируют системы, например, чтобы всегда извлекать значение в правом нижнем углу как общую сумму.
Ограничения этого типа решения заключаются в том, что нельзя менять поставщиков, а текущие поставщики никогда не могут изменять формат своих счетов-фактур. Поскольку технология была запрограммирована на извлечение данных из определенного места в документе.
Можно представить, что дизайн изменился и значение сместилось на 2 см вниз, технология либо больше не будет находить значение для извлечения, либо будет извлекать другое случайное значение.

2. Распознавание ключевых слов и образов.

Другой подход – сосредоточиться на шаблонах и ключевых словах, это делается путем программирования RegEx или регулярных выражений.
Например, при извлечении данных счета-фактуры нужно извлечь общую сумму счета-фактуры.
Таким образом, с помощью этого подхода можно было бы написать правило (RegEx), которое говорит, что нужно фиксировать любую сумму, которая находится впереди или позади «€, EUR, евро, $, USD, доллар и т. д.».
Однако обычно в счете-фактуре указано несколько сумм. Итак, какой из них нужно выбрать для общей суммы?
Или, нужно извлечь номер IBAN: в Бельгии ему всегда предшествует «BE», в Нидерландах — «NL» и т. д.
Таким образом, можно запрограммировать технологию на поиск последовательности из 2 букв и 14 цифр, следующих за этими буквами. Но иногда в счете-фактуре указано несколько IBAN. Какой из них лучше извлечь?
Проблема в том, что нельзя по-настоящему жестко кодировать правила, которые были бы достаточно умными, чтобы всегда фиксировать правильную сумму или правильный IBAN, что ограничивает производительность этого метода.

3. На основе ИИ.

С помощью кодирования на основе местоположения и регулярных выражений можно получить приличный объем информации из определенных документов.
Однако у обоих методов есть ограничения. Получение информации с визуальных элементов (штрих-кодов, логотипов, подписей и т. д.) на самом деле недоступно. Второй и наиболее важный недостаток заключается в том, что эти методы статичны. Они не улучшаются со временем.
Вот где появляются решения на основе ИИ. Благодаря технологиям ИИ в основе решения больше нет необходимости использовать жестко запрограммированные правила и фиксированные местоположения, чтобы зафиксировать нужную дату.
Технологии машинного обучения помогают решению понимать документы и их содержимое. На стороне клиента нет специального программирования, и решение продолжает развиваться.

Типичные подводные камни с точки зрения сбора данных

Существует множество различных типов решений для сбора данных. Если нужно найти поставщика для извлечения данных, следует обратить внимание на некоторые вещи.
Не нужно выбирать решение, которое:
• Основано на устаревших технологиях (на основе шаблонов или распознавания образов).
Большинство компаний, которые инвестировали в эти технологии пару лет назад, теперь стремятся заменить их более надежными решениями.
• Специализируется только на определенных типах документов.
Большинство компаний захотят применить решение к другим типам документов, как только они увидят ценность решения для первого типа документа.
• Фиксирует информацию.
В современном мире акцент смещается на автоматизацию процессов от А до Я. Выбор партнера, который может поддержать вас на всех этапах процесса интеллектуальной автоматизации, имеет решающее значение для успешной реализации такого проекта.