ИИ-агент, который может парсить веб-страницы

Этот шаблон представляет собой прототип ИИ-агента ReAct, способного извлекать случайные страницы (не только из Википедии или результатов поиска Google).

В верхней части находится узел ручного чата, подключённый к агенту LangChain ReAct. Агент имеет доступ к инструменту для создания рабочих процессов, позволяющему получать содержимое страниц.

Извлечение содержимого страницы начинается с преобразования параметров запроса в объект JSON. Существует 3 предопределённых параметра:

url — адрес страницы, которую нужно загрузить
method = full / simplified
maxlimit — максимальная длина последней страницы. Для страниц большей длины агенту возвращается сообщение об ошибке

Получение содержимого страницы — это многоэтапный процесс:

Режим HTTP-запроса пытается получить содержимое страницы.

Если содержимое страницы было успешно получено, начинается этап постобработки:

Извлечь ТЕКСТ HTML; содержимое
Удалите все ненужные теги, чтобы уменьшить размер страницы
Далее удалите внешние URL-адреса и значения IMG scr (на основе параметра запроса метода)
Оставшийся HTML-код преобразуется в Markdown, что ещё больше сокращает объём страницы, сохраняя при этом её базовую структуру
Оставшийся контент отправляется обратно агенту, если он не слишком длинный (по умолчанию maxlimit = 70 000, см. раздел CONFIG).

ПРИМЕЧАНИЕ:

Вы можете выделить HTTP-запрос в отдельный рабочий процесс.
Ознакомьтесь с описанием Workflow Tool. Оно подсказывает агенту, что вместо объекта JSON нужно указать строку запроса с несколькими параметрами.

💝 Поддержать проект

USDT (TON)

TON

Bitcoin

Ethereum (ETH)