8 812 320 13 03
  • Новости
  • Расписание
  • Курсы
  • Организациям
  • Контакты
  • Перезвоните мне

    Обучение Data Science – Курс Data Scientist в СПб | Level Up

    Курс NLP для дата-сайентистов

    Курс NLP для дата-сайентистов
    Начало курса
    26.06.2024
    Продолжительность
    1 месяц (20+ ак. часов)
    Расписание
    Ср 19:00 - 21:00
    Сб 11:00 - 13:00
    Онлайн
    (14 мест)
    25990 записаться

    Описание курса

    Курс "NLP для дата-саейнтистов" рассчитан на дата-сайентистов которые уже владеют классическими алгоритмами и машинным обучением, но хотят освоить область data science связанную с языковым моделированием.

    В этом курсе вы получите фундаментальные знания о NLP, начиная с базовых принципов подготовки корпуса к анализу и до продвинутых технологий глубокого обучения. Вы изучите как с помощью математики можно строить языковые модели, а с помощью линейной алгебры передавать семантический смысл слов.

    Наш курс предлагает комбинацию теоретических знаний и практических упражнений. Вы получите доступ к актуальным материалам, примерам кода и проектам, которые помогут вам усвоить и применить концепции NLP в реальном мире.


    Кому будет полезен данный курс: 

    • Датасаентистам, которые уже имеют опыт в области классических алгоритмов и хотят расширить свои знания в конкретной области
    • Выпускникам школы LevelUP по курсу Data Scientist. Интенсив

    Чему Вы научитесь:

    • Правильно ставить задачу и находить актуальное решение
    • Важным техникам предобработки текста, включая токенизацию, стемминг и удаление шума
    • Векторным представлениям слов, таким как Word2Vec, GloVe и BERT
    • Использовать мощные модели рекуррентных нейронных сетей (RNN) и LSTM, которые позволяют улавливать зависимости в последовательностях данных
    • Исследовать современные методы, такие как модель BERT, позволяющие открывать новые горизонты в понимании и генерации естественного языка
    • Практически применять полученные знания в реальных задачах, включая классификацию текстовых данных и распознавание именованных сущностей (NER)

    Инструменты и технологии, которые будем использовать на курсе:

    • Python
    • Jupyter Notebook
    • Git и Github
    • pandas
    • numpy
    • sklearn
    • matplotlib и seaborn
    • pytorch

    Требования к участникам курса:

    • Elementary знание английского
    • Знание классического машинного обучения и теоретической базы

    Программа

    развернуть

    1. Введение в обработку естественного языка (NLP)

    • Введение в NLP и его важность. 
    • Обзор основных задач NLP.
    • Определение NLP и его цели.
    • Примеры применения NLP в повседневной жизни.
    • Основные задачи NLP 
    • Основные инструменты NLP
    • Обзор инструментов и библиотек для NLP (NLTK, spacy).
    • Функциональность и области применения каждого инструмента.
    развернуть

    2. Подготовка текстов и векторные представления слов

    • Объяснение важности предобработки текста и векторизации слов.
    • Методика очистки данных от шума и мусора
    • Токенизация и обработка текста, лемматизация, стемминг
    • Примеры использования инструментов и библиотек для предобработки текста (NLTK, spacy)
    • Векторные представления слов
    • Основы векторизации слов
    • One-Hot Encoding, Bag-of-Words (BoW), TF-IDF, POS теги
    • N-граммы и их использование
    • Практическая работа
    развернуть

    3. Векторные представления слов: эмбеддинги (Word2Vec, fastText, GloVe) и Bag-of-Words (BoW)

    • Введение в векторные представления слов и их роль в обработке естественного языка.
    • Bag-of-Words (BoW), определение и принцип работы модели BoW.
    • Преобразование текстового корпуса в векторы, основанные на частоте встречаемости слов. Примеры кода для создания BoW представления текста.
    • Word2Vec, обзор модели Word2Vec и ее основные концепции.
    • Объяснение процесса обучения модели Word2Vec на больших корпусах текста. Демонстрация использования предобученной модели Word2Vec для получения векторных представлений слов.
    • fastText, введение в модель fastText и ее особенности.
    • Объяснение принципа работы fastText с учетом подсловных признаков.
    • Примеры использования предобученной модели fastText для получения векторных представлений слов.
    • GloVe
    • Обзор модели GloVe (Global Vectors for Word Representation).
    • Показ использования предобученной модели GloVe для получения векторных представлений слов.
    • Практические примеры кода для использования векторных представлений слов в задачах NLP.
    развернуть

    4. Задача и решение Named Entity Recognition (NER) с использованием условных случайных полей (CRF)

    • Введение в задачу Named Entity Recognition (NER) и ее значение в обработке естественного языка.
    • Определение задачи NER и ее цель.
    • Обзор различных типов именованных сущностей, таких как имена людей, места, организации и даты.
    • Условные случайные поля (CRF)
    • Объяснение структуры CRF модели и основных компонентов (наблюдаемых и скрытых переменных, параметров модели).
    • Примеры кода для обучения CRF модели на размеченных данных.
    • Подготовка данных для NER
    • Обзор распространенных форматов данных для NER (например, CoNLL, BIO)
    • Демонстрация использования обученной модели для распознавания и классификации именованных сущностей в новых текстах.
    развернуть

    5. Рекуррентные нейронные сети

    • Введение в рекуррентные нейронные сети (RNN) и их применение в обработке последовательностей данных.
    • Объяснение необходимости моделей, способных учитывать контекст и зависимости между элементами последовательности.
    • Основы рекуррентных нейронных сетей (RNN) 
    • Обзор принципов работы RNN и их отличие от прямых нейронных сетей.
    • Объяснение рекуррентного связывания и передачи информации по временным шагам.
    • Проблема затухающего градиента и ее влияние на обучение RNN.
    • Примеры кода для создания и обучения RNN с помощью PyTorch
    развернуть

    6. LSTM (Long Short-Term Memory)

    • Модель LSTM (Long Short-Term Memory) 
    • Введение в модель LSTM и ее основные компоненты (входной, забывающий и выходной вентили, клеточное состояние).
    • Объяснение механизма долговременной памяти и способности модели сохранять информацию на протяжении времени.
    • Описание процесса обучения LSTM и обратного распространения ошибки по временным шагам.
    • Обсуждение выбора функции потерь и оптимизационных алгоритмов при обучении LSTM.
    • Примеры кода для создания и обучения LSTM с помощью PyTorch
    развернуть

    7. BERT (Bidirectional Encoder Representations from Transformers)

    • Что такое BERT и для чего его используют
    • Объяснение, что такое BERT и как он отличается от предыдущих моделей представления слов.
    • Обсуждение применений BERT в различных задачах NLP.
    • Архитектура BERT
    • Описание архитектуры BERT, состоящей из многоуровневого стека трансформеров.
    • Объяснение принципа работы трансформеров, включая механизм само-внимания (self-attention) и многоуровневую сверточную сеть.
    • Рассмотрение особенностей BERT, таких как двунаправленность и маскирование токенов.
    • Обучение BERT на больших корпусах данных 
    • Объяснение использования BERT для классификации текстовых данных, включая задачи бинарной и многоклассовой классификации.
    • Описание применения BERT для решения задачи Named Entity Recognition (NER), т.е. распознавания и классификации
    • BERT Finetuning для задачи NER и классификации текстов
    развернуть

    8. Работа над проектами

    развернуть

    9. Разбор классических вопросов на собеседовании

    Преподаватели

    Антон

    Ведущий эксперт Data Science в Neoflex

    Я работаю в подразделении, которое занимается машинным обучением. Мой предыдущий опыт связан с решением задач из области nlp и аналитики данных. Кроме того, умею работать с бигдата-фреймворками и решать задачи из области компьютерного зрения.

    Фото с очных занятий в СПб

    Курсы программирования, тестирования, мобильных и веб-технологий от Level UP!
    Учитесь с профессионалами в сфере IT-образования!