ИИ-агент, который может парсить веб-страницы


Этот шаблон представляет собой прототип ИИ-агента ReAct, способного извлекать случайные страницы (не только из Википедии или результатов поиска Google).

В верхней части находится узел ручного чата, подключённый к агенту LangChain ReAct. Агент имеет доступ к инструменту для создания рабочих процессов, позволяющему получать содержимое страниц.

Извлечение содержимого страницы начинается с преобразования параметров запроса в объект JSON. Существует 3 предопределённых параметра:

  • url — адрес страницы, которую нужно загрузить
  • method = full / simplified
  • maxlimit — максимальная длина последней страницы. Для страниц большей длины агенту возвращается сообщение об ошибке

Получение содержимого страницы — это многоэтапный процесс:

  1. Режим HTTP-запроса пытается получить содержимое страницы.

Если содержимое страницы было успешно получено, начинается этап постобработки:

  1. Извлечь ТЕКСТ HTML; содержимое
  2. Удалите все ненужные теги, чтобы уменьшить размер страницы
  3. Далее удалите внешние URL-адреса и значения IMG scr (на основе параметра запроса метода)
  4. Оставшийся HTML-код преобразуется в Markdown, что ещё больше сокращает объём страницы, сохраняя при этом её базовую структуру
  5. Оставшийся контент отправляется обратно агенту, если он не слишком длинный (по умолчанию maxlimit = 70 000, см. раздел CONFIG).

ПРИМЕЧАНИЕ:

  • Вы можете выделить HTTP-запрос в отдельный рабочий процесс.
  • Ознакомьтесь с описанием Workflow Tool. Оно подсказывает агенту, что вместо объекта JSON нужно указать строку запроса с несколькими параметрами.