Гюлахмед Маллалиев
Искусственный интеллект активно вторгается в нашу жизнь, что у многих вызывает серьезные опасения. В качестве потенциальных угроз противники ИИ называют возможную интеллектуальную деградацию человека, за которого все будут делать нейросети, рост безработицы из-за автоматизации рабочих процессов и замены людей машинами, искажение информации и увеличение количества фейков, и даже потерю управления, в результате чего машины могут стать автономными, и тогда, считают они, вполне возможно и описанное фантастами в своих произведениях «восстание машин».
Однако есть и другое мнение, согласно которому ИИ могут сделать жизнь людей намного комфортнее: переложив на искусственный интеллект выполнение рутинных процессов, человек может больше внимания уделять себе, своему развитию, отдыху, наслаждению жизнью. В редакции газеты у нас недавно состоялась беседа с представителем лагеря сторонников активного внедрения в жизнь человечества.
Знакомьтесь: Абдуллаева Гулейбат, табасаранка. Родом из с. Зилдик Хивского района. Родилась и выросла в г. Каспийске. Училась в школе №7 г. Каспийска, которую окончила на золотую медаль. Продолжила учебу в филиале Высшей школы экономики г. Санкт-Петербурга, где одновременно получила и гуманитарное (социология, политология) и техническое (программирование) образование. В настоящее время учится в магистратуре Высшей школы экономики в Москве по программе «Искусственный интеллект». Занимается проблемами разработки искусственного интеллекта и машинного обучения. В рамках выполнения магистерской диссертации планирует использовать новые технологии применительно к табасаранскому языку.
– Вообще эта идея у меня возникла еще в детстве. Когда я училась в начальной школе, у меня была большая проблема с изучением табасаранского языка. Мне, честно, было интересно, однако в гимназии №7 г. Каспийска табасаранский язык не преподавали. Я помню, что специально завела тонкую тетрадь, на титульном листе которой написала «Тетрадь Абдуллаевой Гулейбат для табасаранского языка». Ходила за мамой и записывала в тетрадь какие-то слова и пыталась их выучить.
И с тех пор я росла с этой идеей. В подростковые годы я узнала о приложении «Словарь табасаранского языка», с тех пор оно у меня на телефоне. Периодически заходила туда и на досуге просматривала перевод слов из разговора с мамой. И вот сейчас, когда я поступаю в магистратуру, узнаю, что его разработал Заур Агамов [дагестанский программист, автор некоммерческого проекта Public dictionary, который представляет собой ряд бесплатных интернет-ресурсов для изучения языков народов Дагестана. Бесплатные словари созданы в нескольких видах: онлайн-приложение, сайт и телеграм-боты. – Г.М.]. Точнее, он разработал приложение – электронные словари с русского на различные дагестанские языки. На табасаранском сейчас, по-моему, доступен только перевод с русского на табасаранский. Табасаранско-русского электронного словаря нет, потому что над ним еще нужно поработать, что-то там «докрутить». Я связалась с Зауром Агамовым, он направил меня в Институт языка, литературы и искусства им.Г.Цадасы ДФИЦ РАН, а оттуда меня направили к вам, – начала беседу Гулейбат. – В рамках своей магистерской диссертации я решила поработать с табасаранским языком. Я намерена, используя методику оптического распознавания символов, или OCR (Optical Character Recognition) создать такой инструмент, который позволит переводить сфотографированный текст в электронный формат, чтобы в дальнейшем с ним можно было работать. В первый год я хочу просто сделать оцифровку полученных текстов. Это будет полезно для работников архивов, библиотек, учителей родных языков и просто таких энтузиастов, как я. А на втором году обучения хочу создать инструмент, который позволит уже и переводить табасаранский язык на русский. Это будет моим вкладом в сохранение табасаранского языка, чтобы люди хоть как-то прикоснулись к родному языку, к его красоте, научились понимать его.
Для работы мне нужны размеченные тексты (с которыми можно совершать различные операции – выделять, копировать, вставлять, изменять) на табасаранском языке. Я уже воспользовалась выложенным на сайте вашей газеты архивом номеров. Надеюсь, вы поможете мне и дополнительным материалом. Дело в том, что машинное обучение – это класс методов ИИ, позволяющий компьютерам обучаться на основе больших объемов данных, извлекая из них закономерности. Поэтому мне нужен огромный массив текстов на табасаранском языке.
– А кто вас подтолкнул к занятию машинным обучением?
– Мне во время учебы в бакалавриате посчастливилось заниматься у замечательного преподавателя по программированию, который залез с нами в очень глубокие дебри и научил тому, чему обычно не учат в вузе. Поэтому у меня случилась очень хорошая подготовка с точки зрения программирования. После бакалавриата я устроилась на работу в компанию «Газпромнефть», ее штаб-квартира находится в Санкт-Петербурге. Я там хорошо зарекомендовала себя, после чего меня повысили на работе. Именно там я и начала заниматься машинным обучением искусственного интеллекта. Я поняла, что мне это очень сильно нравится, и, более того, у меня хорошо получается. Так и созрело решение продолжить учебу в магистратуре.
– Безусловно, планируемая вами разработка электронного табасаранско-русского словаря будет очень кстати.
– Да, причем это будет не просто словарь, то есть слово и его перевод, а именно контекстуальный переводчик. Это достаточно сложная задача, и здесь не получится обойтись просто обычным словарем. Нужно разрабатывать нейросети, которые будут специально для этого обучены. То есть вся внутренняя математика программы будет служит для этого.
В этой работе есть и свои нюансы. Изначально ведётся разработка именно базовой «подкапотной» модели – выбор архитектуры и её дообучение методами глубинного обучения, а уже потом все оборачивается в удобный для пользователя сервис, – продолжала терпеливо и подробно объяснять нам тонкости своего проекта Гулейбат. – Сначала я хочу сделать более простой вариант в виде телеграм-бота. То есть у обычного пользователя имеется какой-то печатный текст, и он хочет перевести его в электронный вид – оцифровать. Он его фотографирует и загружает в чат, и чат-бот высылает ему в виде электронного текста все, что он сфотографировал. А потом, если хватит моих ресурсов – временных, финансовых, планирую создать независимый сайт или приложение. Пока я работаю над первым этапом.
Существующие сегодня инструменты (я их лично проверяла) работают через раз. То есть они выдают текст не в совершенном формате. А про перевод вообще молчу, – сделала паузу наша собеседница, а затем увлеченно продолжила: – У меня, смотрите, какая идея. В первый год своей работы я фокусируюсь на табасаранском, и, возможно, выведу какие-то общие характеристики с точки зрения математики, которые, возможно, подойдут и для всей нахско-дагестанской группы языков. Один из витков, который я хотела бы развить – об этом я пока еще думаю – делать детекцию [распознавание. – Г.М.] не только печатного текста, но и письменного. Это тоже вполне реализуемая задача. Сегодня программисты разрабатывают программы, которые читают очень сложные иероглифы, почему же это не применить и к письменному табасаранскому языку!
– Гулейбат, а вы сами говорите на табасаранском?
– Я, к сожалению, не говорю, но пытаюсь выучить. Язык понимаю, правда – чуть-чуть.
– Подeлитесь своими планами после завершения учебы в магистратуре?
– На данный момент, как уже говорила, я и учусь, и работаю одновременно. В дальнейшем хотелось бы попробовать свои силы в реализации каких-то полезных и крупных проектов. Например, в разработке каких-то интересных НЛП-проектов, где текст используется как основа, а работа ведется с помощью глубинного обучения с текстовыми данными. Конечно, в дальнейшем хотелось бы развить тему с языками, потому что это такое непаханое поле, где много чего можно исследовать, много чего вывести совершенно нового.
– Что ж, удачи вам в этих безусловно полезных начинаниях, Гулейбат!
