Лингвистика на коленке

Лингвистика на коленке

8 Сен 2018
8 Сен 2018

Говорят, в нейронных сетях (deep learning) для решения задач обработки естественного языка (natural language processing, NLP) появился перенос обучения (transfer learning). На огромном количестве неразмеченных данных обучаются (unsupervised learning) языковые модели с векторами слов (word embeddings), а дальше слои, полученные при обучении, можно использовать для задач классификации текстов, машинного перевода, диалоговых агентов и множества других задач. Джереми Ховард в курсе fast.ai описывал такую задачу еще в ноябре, но сейчас, в июне, появилась статья, подтверждающая sota (state of the art) этих результатов. Чем хороша эта новость: для задач естественного языка нужны размеченные данные. Их нужно много. Это очень дорого, при том, что качество далеко не всегда бывает идеальным, потому что разметка текстовых данных намного сложнее, чем разметка фотографий собак и кошек, например.

Обучая языковую модель на неразмеченных данных, можно срезать путь и доучивать модель на маленьких наборах данных. В статье говорится, что это сродни прорыву ImageNet в задачах компьютерного зрения, когда в 2012 году на миллионах картинок обучили классификации нейронные сети, и эти сети оказались способны решать множество других задач.

https://www.wired.com/story/ai-can-recognize-images-but-understand-headline/amp?__twitter_impression=true

Кстати, на Себастьяна Рудера, ученого, получившего эти результаты, я подписана в твиттере и очень рекомендую, у него есть отличная рассылка новостей NLP.

Другие посты по теме...

CryptoBoss CryptoBoss @kriptobossye
Блокчейн в массы - чего ожидать Внедрение блокчейна в предприятия изменит многие процессы. Поможет избавиться от коррупции (только надеждой и живем) и трансформирует бизнес до неузнаваемости. Посредники. Здравоохранение,...
LIFEHACK VIDEO 💡 LIFEHACK VIDEO 💡 @LifeHackVideo
​​Любишь поиграть в казино, но собственные деньги нет желания тратить?💰 Любишь халяву, но не знаешь где её искать?🤔 Подписывайся на канал "BonusHunt" https://t.me/gambling_bonus ! На нём - ежедневная сводка всех...
Магазин онлайн - скидки, акции Магазин онлайн - скидки, акции @shopru
​​Квадрат Пифагора: узнай характер по дате рождения. Эти нехитрые вычисления помогут вам раскрыть характер человека. Для этого нужно узнать дату рождения.  И прочитать продолжение
Uzbek-MDK Uzbek-MDK @uzmdk
Постановление о свадьбах в Узбекистане с 1 июля: что в нем будет В Узбекистане с 1 июля может вступить в силу обсуждаемый сейчас проект Постановления, касающийся проведения торжеств. По сообщению членов Сената Олий...
MDK MDK @mudak
МДКач, у меня важный вопрос: Вы когда-нибудь ебали бабу без сознания? anonymous poll Нет – 952 👍👍👍👍👍👍👍 88% Да – 133 👍 12% 👥 1085 people voted so far.