NLP в японском стиле. Репортаж с поездки в Канадзаву на конференцию NLDB 2025
Всем привет! С 4 по 6 июля в японском городе Канадзава прошла небольшая, но очень ламповая конференция NLDB 2025, посвященная различным доменам в NLP. Мы, группа исследователей из AIRI, съездили на это мероприятие, других посмотреть и себя показать.
О том, что было на конференции и о красотах Канадзавы — читайте в тексте ниже.

О конференции в целом
Ежегодная международная конференция по естественному языку и информационным системам NLDB, хоть и не относится к самым топовым конфам (ранг C по CORE), довольно уважаема в NLP сообществе и имеет долгую историю. Вообще говоря, в этом году серия праздновала юбилей — 30 лет. Стартовав во Франции 1995 году, NLDB посещала разные города и страны, по большей части европейские, но на этот раз организаторы выбрали своим местом Японию, и, как нам кажется, не прогадали.
Конференция прошла в городе Канадзава, который находится на западном побережье Японии. Всё происходило в здании Торгово‑промышленной палаты Канадзавы (Kanazawa Chamber of Commerce and Industry). Похоже на то, что это некоторый государственный орган, который призван помогать местному бизнесу, однако здесь сдаются лекционные залы со всем необходимым оборудованием, где и проходило наше мероприятие.
Программа NLDB 2025 предлагала стандартный набор тем для исследований для нынешнего года: LLM, мультимодальные модели, вопросно‑ответные системы и многое другое. Основная часть включала в себя два параллельных трека, можно было выбрать между разными сессиями. В последний же день прошёл индустриальный трек. Труды NLDB 2025 по традиции опубликовал у себя журнал LNCS.
Научная программа
Поскольку конференция небольшая, на ней были только устные доклады: постерной секции и воркшопов не было. Пленарных докладов тоже было немного, всего два. Первый — про интерпретацию LLMками нетекстовых данных — прочитал Хироя Такамура (Hiroya Takamura) из Национального института передовых промышленных наук и технологий AIST, Токио. Во втором докладе, сделанном Хэнь Сэнь Хуаном (Hen‑Hsen Huang) из Тайваньского Института информационных наук Academia Sinica, рассказывалось о том, как его группа смогла научить языковые модели абстрактному мышлению.
Среди секционных выступлений хотелось бы выделить доклад под названием Explaining Bias in Internal Representations of Large Language Models via Concept Activation Vectors. Докладчик — он же единственный автор статьи — по имени Джаспер Кайл Катапан (Jasper Kyle Catapang) представил элегантный подход к анализу скрытых предубеждений в LLM. Используя векторы активации концептов (CAV), он смог количественно измерить, как модели «думают» о расах и связанных с ними этических вопросах при генерации текста.
Примечательно здесь то, что в исследовании использовался так называемый steering, когда прямо во время инференса модели в её активации вносятся изменения для контроля за генерируемым текстом. Это очень перспективное направление исследований в LLM. Например, полгода назад резко завирусился метод «аблитерации» моделей, когда прямо во время инференса находились активации, отвечающие за alignment модели, и эти ограничения, как оказалось, можно было очень просто обойти.
Наши статьи
От AIRI на NLDB 2025 было принято три статьи, расскажем и про них тоже. Слово каждому из докладывавших.
Даниил Московский
Я выступил в первый день, представив работу Memory Efficient LM Compression using Fisher Information from Low-Rank Representations. Статья демонстрирует любопытный эмпирический результат: нам удалось существенно снизить вычислительные требования к использованию существующего метода взвешенной низкоранговой аппроксимации языковых моделей Fisher‑Weighted SVD (FWSVD). FWSVD гораздо лучше по сравнению с SVD уменьшает размер модели, опираясь на «эмпирическую» информацию Фишера для определения «важности» ее компонентов:
Проще говоря, это среднее значение квадратов градиентов, которое показывает, насколько чувствительна ошибка модели к изменению каждого конкретного веса
. Однако у метода есть существенный недостаток: собирать градиенты необходимо по всей модели целиком, что само по себе требует значительных объемов видеопамяти.
Мы предложили простое, но действенное решение этой проблемы. Вместо полного дообучения мы применили легковесный метод LoRA, который модифицирует лишь малую долю параметров модели. Ключевая идея здесь заключалась в том, чтобы аппроксимировать информацию Фишера, используя градиенты только от этих LoRA‑адаптеров.
Мы прогнали этот «трюк» на основных NLP‑задачах (NER, QA, NLU, суммаризация) и всех трех архитектурах (encoder‑only, decoder‑only, encoder‑decoder), сжимая FCN‑слои. Оказалось, что новый подход, FWSVD‑LoRA, достигает сопоставимого, а в некоторых случаях и лучшего качества сжатия, чем оригинальный FWSVD, а видеопамяти требуется значительно меньше.

Михаил Сальников
Мой доклад под заголовком ShortPathQA: A Dataset for Controllable Fusion of Large Language Models with Knowledge Graphs был первым докладом последнего дня конференции. Мы с коллегами выпустили первый Knowledge Graph Question Answering (KGQA) корпус, где каждому вопросу сопоставлен уже вычисленный подграф Wikidata, что снимает необходимость дорогостоящего entity linking и поиска путей.
Новый датасет упрощает исследования на стыке LLM + KG: теперь можно больше сосредоточиться на моделировании, а не на подготовке данных. Базовые эксперименты показывают, что даже GPT-4o теряет качество, если ему «сыро» скормить граф, — значит, требуются новые методы представления графовой информации.
Мы предлагаем стандартизированное сравнение методов: все исследователи работают с одними и теми же подграфами и кандидатами, а не с разными пайплайнами извлечения. Этому способствует и то, что код и данные открыты под Apache-2.0, и мы приглашаем всех тестировать свои алгоритмы на ShortPathQA.
Вас ждет реалистичный и сложный бенчмарк: 12 526 вопросов (автоматическая часть из Mintaka + 350 вручную созданных «сложных» вопросов) и 143 061 пар «вопрос‑кандидат» охватывают 32 тысячи уникальных сущностей; средний подграф — 3–4 узла, но в ручной выборке значительно больше.

Михаил Чайчук
Сразу следом за Михаилом про свою работу The benefits of query‑based KGQA systems for complex and temporal questions in LLM era доложили мы с Олегом Сомовым. Наша команда разработала систему для ответов на сложные вопросы с использованием KGQA на основе Wikidata, включающую методы подбора и первичной фильтрации подходящих под запрос сущностей и предикатов из базы данных и генерацию SPARQL‑запросов с применением небольших языковых моделей. Кстати, Олег и его студенты недавно написали статью на Хабр про text‑to‑SPARQL задачу, рекомендуем!
Наш подход комбинирует несколько небольших моделей для разных подзадач. Он требует значительно меньших затрат ресурсов и демонстрирует высокую обобщаемость и способность к фильтрации некорректных запросов. Эксперименты показали, что система превосходит ChatGPT и существующие методы в задачах multi‑hop и ответах на временные вопросы. Код доступен в открытом репозитории.

А ещё руководитель нашей группы Domain-specific NLP в AIRI Елена Тутубалина была председателем одной из секций NLDB 2025.

Канадзава и её окрестности
Канадзава — город на западном побережье острова Хонсю, столица префектуры Исикава. Это относительно небольшой (по японским меркам) город, с населением в примерно 460 тысяч человек. Тут нет небоскребов, метро и толп, дома в основном не очень высокие, построенные в прибрежном стиле.
Сразу стоит отметить, что большую часть трёх дней мы провели на конференции, поэтому на осмотр города у нас оставалось лишь немного времени по вечерам, если не считать организованную для гостей экскурсию. Мы посетили несколько достопримечательностей: Намагачи или Квартал самураев, где сохранились несколько аутентичных самурайских усадеб, внутри которых расположены музеи, Хигаси-Тяягай или Квартала гейш, где расположены старинные чайные домики в традиционном стиле, рынок Омичу, где продается огромное количество самых разных товаров, и, в первую очередь, конечно, всевозможные морепродукты, которые вылавливают тут же на побережье.

На второй день мы отправились на экскурсию для участников конференции, во время которой посетили замок Канадзава и прилегающий к нему сад Кэнроку‑эн. Это один из трёх великих садов Японии, созданный в XVII веке как частный парк клана Маэда. Его название отсылает к «шести достоинствам» идеального ландшафта: простор, уединенность, человеческое мастерство, древность, водные источники и панорамные виды. Это по‑настоящему красивый парк, в котором каждая деталь имеет особое значение, а деревья никогда не вырубаются, а если их и приходится по каким‑то причинам убрать, на их место сажают их наследников (ростки от оригинального дерева).

Канадзава — это по-настоящему уникальное место с самобытной культурой, архитектурой и совершенно особенными людьми, которое хочется исследовать и исследовать. Но на это стоит выделить не меньше недели, а не те три дня, которые у нас были.
Очень надеемся вернуться сюда ещё раз, по работе или нет.

Автор: THunderCondOR