Как загрузить и установить Llama 2 локально - |Объяснение технологии|Сделай сам|

Такие читатели, как вы, помогают поддержать MUO. Когда вы совершаете покупку по ссылкам на нашем сайте, мы можем получать партнерскую комиссию. Читать далее.

Meta выпустила Llama 2 летом 2023 года. Новая версия Llama настроена на 40% больше токенов, чем исходная модель Llama, что вдвое увеличивает длину контекста и значительно превосходит другие доступные модели с открытым исходным кодом. Самый быстрый и простой способ получить доступ к Llama 2 — через API через онлайн-платформу. Однако, если вы хотите получить максимум удовольствия, лучше всего установить и загрузить Llama 2 непосредственно на свой компьютер.

как вернуть свою серию в снэпчат

Имея это в виду, мы создали пошаговое руководство о том, как использовать Text-Generation-WebUI для загрузки квантованного Llama 2 LLM локально на ваш компьютер.

Зачем устанавливать Llama 2 локально

Есть много причин, по которым люди предпочитают запускать Llama 2 напрямую. Некоторые делают это из соображений конфиденциальности, некоторые — для настройки, а третьи — для работы в автономном режиме. Если вы исследуете, настраиваете или интегрируете Llama 2 в свои проекты, то доступ к Llama 2 через API может вам не подойти. Целью локального запуска LLM на вашем компьютере является снижение зависимости от сторонние инструменты искусственного интеллекта и используйте ИИ в любое время и в любом месте, не беспокоясь об утечке потенциально конфиденциальных данных компаниям и другим организациям.

С учетом сказанного, давайте начнем с пошагового руководства по локальной установке Llama 2.

Шаг 1. Установите инструмент сборки Visual Studio 2019.

Чтобы упростить задачу, мы будем использовать установщик Text-Generation-WebUI в один клик (программа, используемая для загрузки Llama 2 с графическим интерфейсом). Однако для работы этого установщика необходимо загрузить Visual Studio 2019 Build Tool и установить необходимые ресурсы.

Скачать: Визуальная Студия 2019 (Бесплатно)

Загрузите версию программного обеспечения для сообщества.
Теперь установите Visual Studio 2019 и откройте программное обеспечение. После открытия поставьте галочку Разработка рабочего стола на C++ и нажмите «Установить».

Теперь, когда у вас установлена программа разработки для настольных компьютеров с C++, пришло время загрузить программу установки Text-Generation-WebUI в один клик.

Шаг 2. Установите Text-Generation-WebUI

Установщик Text-Generation-WebUI в один клик — это скрипт, который автоматически создает необходимые папки и настраивает среду Conda и все необходимые требования для запуска модели AI.

Чтобы установить скрипт, загрузите установщик в один клик, нажав на Код > Скачать ZIP.

Скачать: Установщик Text-Generation-WebUI (Бесплатно)

После загрузки извлеките ZIP-файл в нужное вам место, затем откройте извлеченную папку.
В папке прокрутите вниз и найдите подходящую стартовую программу для вашей операционной системы. Запустите программы, дважды щелкнув соответствующий скрипт.
- Если вы используете Windows, выберите start_windows командный файл
- для MacOS выберите start_macos ракушка
- для Linux, start_linux сценарий оболочки.
Ваш антивирус может создать предупреждение; это отлично. Подсказка — это всего лишь ложное срабатывание антивируса для запуска командного файла или сценария. Нажмите на Все равно беги .
Откроется терминал и начнется установка. Вначале установка приостановится и спросит вас, какой графический процессор вы используете. Выберите подходящий тип графического процессора, установленного на вашем компьютере, и нажмите Enter. Для тех, у кого нет выделенной видеокарты, выберите Нет (я хочу запускать модели в режиме ЦП) . Имейте в виду, что работа в режиме ЦП происходит намного медленнее по сравнению с работой модели с выделенным графическим процессором.
После завершения настройки вы можете запустить Text-Generation-WebUI локально. Вы можете сделать это, открыв предпочитаемый вами веб-браузер и введя указанный IP-адрес в URL-адресе.
Теперь веб-интерфейс готов к использованию.

Однако программа является лишь загрузчиком моделей. Скачаем Llama 2 для запуска загрузчика модели.

Шаг 3. Загрузите модель Llama 2.

При принятии решения о том, какая итерация Llama 2 вам нужна, необходимо учитывать немало вещей. К ним относятся параметры, квантование, оптимизация оборудования, размер и использование. Вся эта информация будет указана в названии модели.

Параметры: Количество параметров, используемых для обучения модели. Большие параметры делают модели более производительными, но за счет производительности.
Использование: Может быть как стандартным, так и чатом. Модель чата оптимизирована для использования в качестве чат-бота, например ChatGPT, тогда как стандартной является модель по умолчанию.
Оптимизация оборудования: Относится к тому, какое оборудование лучше всего работает с моделью. GPTQ означает, что модель оптимизирована для работы на выделенном графическом процессоре, а GGML оптимизирован для работы на центральном процессоре.
Квантование: Обозначает точность весов и активаций в модели. Для вывода оптимальна точность q4.
Размер: Относится к размеру конкретной модели.

Обратите внимание, что некоторые модели могут быть устроены по-разному и даже отображать разные типы информации. Однако этот тип соглашения об именах довольно распространен в ОбниматьЛицо Библиотека моделей, так что разобраться еще стоит.

этот аксессуар может не поддерживаться iphone

В этом примере модель можно определить как модель Llama 2 среднего размера, обученную на 13 миллиардах параметров, оптимизированную для вывода данных в чате с использованием выделенного ЦП.

Для тех, кто работает на выделенном графическом процессоре, выберите GPTQ модель, а для тех, кто использует процессор, выберите ГГМЛ . Если вы хотите общаться с моделью так же, как с помощью ChatGPT, выберите чат , но если вы хотите поэкспериментировать с моделью на полную мощность, используйте стандартный модель. Что касается параметров, знайте, что использование более крупных моделей обеспечит лучшие результаты за счет производительности. Лично я бы рекомендовал вам начать с модели 7B. Что касается квантования, используйте q4, поскольку он предназначен только для вывода.

Скачать: ГГМЛ (Бесплатно)

Скачать: GPTQ (Бесплатно)

Теперь, когда вы знаете, какая версия Llama 2 вам нужна, скачайте нужную модель.

В моем случае, поскольку я запускаю это на ультрабуке, я буду использовать модель GGML, настроенную для чата. call-2-7b-chat-ggmlv3.q4_K_S.bin.

После завершения загрузки поместите модель в генерация текста-webui-main > модели .

Теперь, когда ваша модель загружена и помещена в папку модели, пришло время настроить загрузчик модели.

Шаг 4. Настройте Text-Generation-WebUI

Теперь приступим к этапу настройки.

Еще раз откройте Text-Generation-WebUI, запустив команду start_(ваша ОС) файл (см. предыдущие шаги выше).
На вкладках, расположенных над графическим интерфейсом, нажмите Модель. Нажмите кнопку обновления в раскрывающемся меню модели и выберите свою модель.
Теперь нажмите на раскрывающееся меню Модель погрузчика и выберите АвтоGPTQ для тех, кто использует модель GTPQ и трансформаторы для тех, кто использует модель GGML. Наконец, нажмите Нагрузка чтобы загрузить вашу модель.
Чтобы использовать модель, откройте вкладку «Чат» и начните тестирование модели.

Поздравляем, вы успешно загрузили Llama2 на свой локальный компьютер!

Попробуйте другие программы LLM

Теперь, когда вы знаете, как запустить Llama 2 непосредственно на своем компьютере с помощью Text-Generation-WebUI, вы также сможете запускать другие LLM, помимо Llama. Просто помните о правилах именования моделей и о том, что на обычные ПК можно загружать только квантованные версии моделей (обычно с точностью q4). На HuggingFace доступно множество квантованных LLM. Если вы хотите изучить другие модели, найдите TheBloke в библиотеке моделей HuggingFace, и вы найдете множество доступных моделей.