Перейти к содержимому
Главная страница » Llama2D: Вкрапления для структурного понимания веб-страниц

Llama2D: Вкрапления для структурного понимания веб-страниц

Llama2d: Двухмерные позиционные вкрапления для структурного понимания веб-страниц

Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.

Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делать в GPT-V.

Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.

Пока ещё работа в процессе. Но весь код уже выложили на гитхаб (https://github.com/Llama2D/llama2d)б. Будем следить за развитием.

Llama2D: 2D позиционные эмбеддинги для понимания структуры веб-страниц

Llama2D – это экспериментальный проект, который использует LLM (Large Language Model) для понимания структуры веб-страниц.

В чем заключается его особенность?

  • 2D позиционные эмбеддинги: модель обучается на скриншотах веб-страниц, где текст дополняется 2D координатами.
  • Понимание кликабельных элементов: модель учится определять, какие элементы на странице кликабельны.

Преимущества:

  • Более точное понимание структуры страницы: модель “видит” не просто текст, но и его расположение на странице.
  • Более эффективное использование ресурсов: модель не тратит ресурсы на обработку неинформативных пикселей.

Потенциальные применения:

  • Создание агентов для веб-скрапинга: агенты могут автоматически “читать” веб-страницы и извлекать из них данные.
  • Разработка инструментов для людей с ограниченными возможностями: инструменты могут помогать людям с ограниченным зрением или двигательными функциями пользоваться интернетом.

Текущее состояние:

  • Work in progress: проект находится в стадии разработки.
  • Открытый код: код проекта доступен на GitHub.

Будущее:

  • Развитие проекта: авторы проекта планируют улучшить модель и расширить ее возможности.
  • Новые применения: 2D позиционные эмбеддинги могут быть использованы в других задачах, связанных с обработкой изображений.

P.S.

  • Какие задачи вы могли бы решить с помощью Llama2D?
  • Как вы думаете, каким будет будущее понимания структуры веб-страниц?
Поделитесь, Ведь Это Интересно!