Llama2d: Двухмерные позиционные вкрапления для структурного понимания веб-страниц
Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.
Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делать в GPT-V.
Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.
Пока ещё работа в процессе. Но весь код уже выложили на гитхаб (https://github.com/Llama2D/llama2d)б. Будем следить за развитием.
Llama2D: 2D позиционные эмбеддинги для понимания структуры веб-страниц
Llama2D – это экспериментальный проект, который использует LLM (Large Language Model) для понимания структуры веб-страниц.
В чем заключается его особенность?
- 2D позиционные эмбеддинги: модель обучается на скриншотах веб-страниц, где текст дополняется 2D координатами.
- Понимание кликабельных элементов: модель учится определять, какие элементы на странице кликабельны.
Преимущества:
- Более точное понимание структуры страницы: модель “видит” не просто текст, но и его расположение на странице.
- Более эффективное использование ресурсов: модель не тратит ресурсы на обработку неинформативных пикселей.
Потенциальные применения:
- Создание агентов для веб-скрапинга: агенты могут автоматически “читать” веб-страницы и извлекать из них данные.
- Разработка инструментов для людей с ограниченными возможностями: инструменты могут помогать людям с ограниченным зрением или двигательными функциями пользоваться интернетом.
Текущее состояние:
- Work in progress: проект находится в стадии разработки.
- Открытый код: код проекта доступен на GitHub.
Будущее:
- Развитие проекта: авторы проекта планируют улучшить модель и расширить ее возможности.
- Новые применения: 2D позиционные эмбеддинги могут быть использованы в других задачах, связанных с обработкой изображений.
P.S.
- Какие задачи вы могли бы решить с помощью Llama2D?
- Как вы думаете, каким будет будущее понимания структуры веб-страниц?