Быстрые успехи в области машинного обучения за последние несколько десятилетий проложили путь к плодотворному росту нового поколения сложных систем искусственного интеллекта (ИИ), которые могут выполнять задачи автономно. ИИ, возможно, является самой важной технологической инновацией нашей эпохи — его преобразующее воздействие ощущалось почти во всех сферах общества.
Юридические и бухгалтерские фирмы используют ИИ для улучшения информатики, прогнозирования и измерения рабочих процессов в режиме реального времени. Учреждения здравоохранения используют эту технологию для проведения клинической диагностики на уровне, равном уровню опытных клиницистов. Платформы социальных сетей внедряют искусственный интеллект для создания более персонализированного и интерактивного взаимодействия с пользователем.
Повсеместное влияние ИИ распространилось и на бизнес-среду, предоставляя инструменты, которые автоматизируют избыточные задачи, выявляют шаблоны в данных и раскрывают ценную информацию. Это помогает корпорациям автоматизировать рутинные процессы и повышать общую производительность. Эти улучшения приняли форму соответствия требованиям безопасности и управления рисками, прогнозирование поведенческого поведения, выстраиванию стратегий по удержанию сотрудников и т.п.
Его ценностное предложение, казалось бы, бесконечное, ИИ вошёл в сферу делового общения несколькими способами, наиболее заметным из которых, пожалуй, является автоматическое текстовое обобщение корпоративного раскрытия информации при составлении отчётности. Крупные финансовые компании, регулирующие органы и инвесторы являются ключевыми бенефициарами такого типа обобщения.
В последние десятилетия процесс раскрытия информации стал довольно затяжным и содержит значительную часть избыточности данных. Крупным инвесторам удобно задействовать искусственный интеллект для анализа макроэкономических данных, оценки рыночных фундаментальных показателей и корпоративной отчётности. Каждый из этих показателей предназначен для более точных рыночных прогнозов и проведения более успешных сделок с акциями и ценными бумагами.
По мере того как программное обеспечение становится все более и более эффективным, способ написания контента и бизнес-резюме будет кардинально меняться. Поэтому для исследователей и практиков в этой области представляется разумным ознакомиться с тем, как работает это семейство прикладного ПО, а также определить эффективность его использования.
Обращает внимание влияние этой технологии на эволюционные разработки и практики в сфере делового общения. Сжимая большие деловые документы в краткие информативные резюме, автоматическое суммирование текста ускоряет передачу информации в бизнес-среде, тем самым влияя на то, что знает организация. Кроме того, это, вероятно, влияет на принятие организационных решений, а также на другие последующие процессы, такие как поиск информации и создание отчётов.
На первый взгляд процесс суммирования текста кажется простым, но на самом деле это очень сложная задача, которая включает в себя обобщение исходных кодов на основе программного отражения и извлечения лексической исходной модели. Доказательством его сложности является тот факт, что разработчики десятилетиями работали над тем, чтобы сделать это программное обеспечение жизнеспособным и повысить его эффективность. Автоматизированные системы реферирования текста стремятся дать краткое изложение исходного или справочного текста, сохраняя при этом его основную сущность и общий смысл.
Цель системы — создать сводку исходного или справочного текста, эквивалентную сводке, созданной человеком. Эти системы обычно характеризует трёхфазный процесс:
- Анализ исходного текста
- Определение его основных моментов
- Синтез соответствующих результатов
Основополагающая работа в области автоматического суммирования текста началась в 1950-х годах, когда в 1958 году был разработан первый алгоритм извлечения предложений. Алгоритм использовал частоты терминов для измерения релевантности предложения. Понятно, что методы, разработанные в ту эпоху, были довольно рудиментарными. С тех пор было разработано большое количество новых методов и подходов.
Интересно, что большие объёмы информации, созданной в Интернете, во многом спровоцировали это развитие — инструменты суммирования текста теперь стали необходимостью для навигации по информации в Интернете, поскольку они помогают устранить ненужный или лишний контент. Автоматическое суммирование текста сокращает время чтения, ускоряет исследования, упрощая процесс отбора документов, использует алгоритмы, которые менее предвзяты, чем люди, повышает эффективность индексирования и позволяет коммерческим службам, абстрагировавшись от лишнего, увеличить количество обрабатываемых текстов.
Подавляющее большинство современных алгоритмов суммирования используют так называемый подход, основанный на извлечении. Гибкость и более широкое применение этого подхода, делают его предпочтительным для большинства процессов генерации контента и создания бизнес-обзоров. Методы, основанные на извлечении, включают анализ характеристик текста на уровне предложения, дискурса или корпуса, чтобы найти выделяющиеся текстовые единицы, которые извлекаются с минимальными изменениями или без них, чтобы сформулировать резюме текста.
Проще говоря, при резюмировании текста на основе извлечения релевантные фразы и предложения выбираются из исходного документа и перестраиваются в новую резюмирующую последовательность. Таким образом, резюме представляет собой подмножество предложений в исходном источнике или справочном тексте. Выдающиеся текстовые единицы идентифицируются путём оценки их лингвистической и статистической релевантности или сопоставления фразовых моделей.
Статистическая релевантность основана на частоте встречаемости определённых элементов в тексте, таких как слова или термины, а лингвистическая релевантность определяется на основе упрощённой аргументативной структуры текста.
Внутренние оценки результатов выборки обычно включали ручную оценку человеком качества и полезности данного реферата. Рубрики, основанные на согласованности, краткости, грамматике, удобочитаемости и содержании, послужили руководством для алгоритмов ПО, основанным на этих человеческих оценках. Учитывая возможность систематической ошибки и трудоёмкий характер процесса, эта практика постепенно превратилась в автоматическое сравнение сводок с золотыми стандартами, созданными людьми, что свело к минимуму потребность в человеческом участии.
Обычно существует два способа оценить качество вывода автоматического суммирования текста. Первый метод, называемый внешней оценкой, оценивает полезность итоговой сводки в условиях, основанных на задачах. Сводка используется для поддержки выполнения конкретной задачи. Полезность полученного результата определяется измерением установленных показателей эффективности выполнения задач.
Второй метод, называемый внутренней оценкой, проводится путём запрашивания человеческих суждений о качестве и полезности данного резюме или путём сравнения резюме с созданным человеком «золотым стандартом». Несомненно, что ещё предстоит проделать большую работу в области точности и полноты в системах, основанных на извлечении, прежде чем программное обеспечение сможет сравниться со способностью человека улавливать суть текста.
Но помимо практического применения автоматическое суммирование текста выдвигает на первый план более широкие возможности. Автоматические алгоритмы обработки текста поднимает важные вопросы, связанные с глубоким машинным обучением искусственного интеллекта и когнитивной наукой.
