svyatogorodski

Expand Cut Tags

No cut tags

Пост про то, где сейчас находится ИИ в области математики. Для конкретики (и тех, кто в танке и/или хочет проверить сам) будут реальные математические вопросы/задачи. Их можно смело пропускать, если вас не интересуют технические детали.

-1. Пару месяцев один проект занес меня в смежную область, где возник конкретный вопрос -- наверняка не сложный, но нестандартный. Такое могло все же быть в каком-то курсе по локальной теории полей классов (как упражнение), и для поиска я спросил грока и гпт (самые простые версии). Оба долго несли пургу, признавали ошибки, и опять повторяли пургу, а в конце я предложил свою догадку из серии "хотелось бы", и гпт признал ее верной, а грок не признал, но по неверным причинам. Короче, я решил, что толку от ИИ пока ноль.

Вопрос же был найти композит максимальных абелевых расширений всех трех квадратичных расширений Q_p (для нечетного простого). Мне бы хотелось получить, что группа галуа -- более менее совпадает с (проконечным пополнением) мультипликативной группы алгебры кватернионов над Q_p, но на самом деле это слишком некоммутативно, а (с точностью до групп порядка два и четыре) получается пополнение мультипликативной группы, но для коммутативной алгебры размерности четыре над Q_p -- композита этих трех квадратичных расширений (очевидный ответ, который я проглядел).

0. Недельку назад у нас в департаменте состоялась беседа о том, что пора отменять все домашние экзамены (и домашки с оценкой тоже под вопросом), мол, Gemini в моде pro щелкает это без проблем. Народ попробовал и начал подтверждать, что он решает самые сложные задачи из мастерантских курсов. Ну вот где-то недельку я с ним иногда и играю.

а) В тот день я вначале дал домашний экзамен по коммутативной алгебре (на две недели). Некоторые задачи там довольно стандартны, но все записаны мной с нуля, без терминологии, так чтобы студенты не могли найти их в литературе. Это был маленько перебор, некоторые бедолаги написали больше 20 страниц (там был комплекс Кошуля над полиномами -- докажите точность, используйте, чтобы посчитать какой-то Tor, постройте sheafification -- опять же определение пучка давалось в задаче как какое-то свойство, термин не использовался, а было и менее стандартное). Джемини решил все и легко.

б) Ок, как поисковик он уже доказал себя чуть более, чем полностью -- расшифровал, что дано в формулах, и нашел ссылки. Тогда я дал ему бонусные задачи на Галуа (все сформулированы мной, а не взяты откуда-то, некоторые совсем нестандартные, студенты решают очень плохо). Опять же, решил все (в одной напортачил, но доделал со второго раза). Включая задачку о том, сколько есть разных групп галуа из 81 элемента у полиномов степени 9 и 10.

в) Ладно, говорю, раз ты такой умный, давай займемся ресерчем. Выбрал свой проект, где определяется новый алгебраический инвариант, причем вообще не ожидали, что нечто такое может существовать. Нигде не записано, кроме моего компа -- там полстатьи, что-то записано, что-то в голове, что-то я ожидаю, но еще не доделал. Короче, найти ему это негде.

Определи-ка, говорю, инвариант (группу, модуль, что сможешь), который меряет вот это. Конечно, это он не может, предлагает какую-то мелочевку из литературы. Ладно, говорю, давай посмотрим на простую аналогию с пополнением, а тепрь мы хотим аналогично, но вот в этой ситуации. Тут еще, как мне кажется, становится важно, использовать хорошее лингивстическое объяснение, которе и человеческой интуиции помогает... Да говорит, точно, это отвечает таким-то точкам (нашел ссылки на статьи по области), но складывать можно только на одном радиусе. Ок, говорю, а градуированно? Да, точно, можно определить градуированный модуль! Кстати, в этот момент, он уже до моих статей докопался, и заодно сообщил мне, что экзамен, с которого мы начали, писал тот же автор... Ладно говорю, а еще один шажок -- если характеристика положительная, есть еще структуры? Да, говорит, Фробениус действует. Получаются модулж над скрученными фробениусом полиномами.

Дальше я его просил какие-то базисные свойства доказывать. Там, где я уже разобрался, и подвел его небольшими шагами, он справился. Там, где я еще сам не до конца, он мне ничего нового не нашел, и чем дальше, тем больше абстрактных слов и меньше конкретики. Но в том, где я разобрался, его пиком была предложенная схема доказательства, которую он разбил на три леммы - в точности, как у меня записано (самая нетривиальная доказана им чуток по-другому). Но самая потеха в том, что при этом он заявил, что ну это стандартный результат в литературе, ищи у ФК и у.. меня. У ФК, как я уже писал, ничего такого нет, а у меня только в черновике... Не смог все-таки от обычных ИИ глюков избавиться до конца.

г) Пока я бы определил уровень таким образом. Иногда по схватыванию материала и идей, если хорошо объясняешь, уже очень силен -- студент будет понимать намного хуже и дольше, скорее, как сильный коллега. Статьи находит по теме, по мере рязвития треда и учитывает. На маленьких шагах может доказать лемму, посчитать какой-то комплекс/группу (задачу из -1 он решил с подказкой), дать напрашивающееся определение, и т.д. И, конечно, записать это латехом. Много шагов сам сделать не может. И вообще надо очень хорошо понимать, куда его гонишь. Ну и чем дольше тред, тем больше пусть и маленьких шагов ты с ним сделал, тем хуже -- больше абстрактных слов, ничем необоснованных догадок и меньше конкретики. Видимо, ему не с чем больше сравнить, кроме этого треда, обобщенное знание перестает работать.

Скорее всего, при умелом использовании уже можно выигрывать время, например, давая ему доказать технические лемки. Плюс к этому, чем самому считать, поручать ему всякие вполне навороченные алгебраические вычисления. Пару примеров дам в продолжении. Заставить его найти что-то реально для меня новое пока не удалось. Но как интеграртор обобщенного научного знания на сегодня оно работает уже сильно за гранью поисковика.

Flat | Top-Level Comments Only

From:

sobriquet9

У меня аналогичное впечатление, только не на теоретических, а на прикладных задачах.

Только что Claude Sonnet 4.6 Extended за десять секунд решил практическую задачу по статистике, на которую у меня ушло недели две чистого времени. Причём решил правильно, в более общем виде и его решение проще моего. Я знаю, что правильно, потому что могу проверить найденное им аналитическое решение с помощью тупых численных методов.

Предыдущая версия не могла. Без Extended не может, говорит что решения нет. Wolfram Alpha и Maxima (CAS) тоже не справились. В обучающей выборке решения точно нет, задачка из узкой области и с необычным вывертом.

Но за ним обязательно надо абсолютно всё проверять. Так же уверенно может нести абсолютную чушь и выдавать формулы, по которым вероятности получаются отрицательные.

From:

svyatogorodski

Да, пока надо проверять все. В серьезных вещах может быть почти правда или правда, а может глюкнуть.

From:

k_uao

По отмене домашек (точнее, резком снижении их роли в оценке до 20%) у нас тоже была недавно принята рекомендация. Для студентов в итоге может и тяжелее станет — сложнее себя мотивировать решать домашки если за это меньше баллов, а без этого все равно не научишься.

Вы меня почти убедили купить еще третью подписку на Gemini и попробовать . По-прежнему все это кажется очень ненадежным для такого типа задач. Оно слишком хорошо получает правильный ответ, когда уже знаешь, что должно получиться, и неправильный ответ, когда не знаешь, что получится, и ведешь его не туда.

Ну там Claude code agent mode смог мне написать за пару часов сложный численный расчет, который теоретически где-то в литературе известен, но у меня бы ушли недели, а у студентов раньше ушли бы месяцы. Он же смог написать аналитическую формулу, которая расчет в целом описывает и в целом понятно как должна быть устроена. Объяснить , почему в некоторых случаях формула не работает, он может в совершенстве. А вот подправить формулу — ему уже слабо. Мозгов не хватает. Возможно нужно засунуть это в Gemini, и проверить, но там нет агентского режима, и придется все копировать руками в браузер и обратно по старинке ….

From:

svyatogorodski

Началось. Этот раз должен быть полегче, но в махоне, как мы теперь знаем, точно нужна двойная осторожность. Держитесь.

ПС Да они все получают хороший ответ, когда его ведешь куда надо. И чем больше шагов надо самому, тем скорее уходят в астрал. Но и со студентом то же самое. Да и не только со студентом...

У нас бесплатная версия, т.к. почта в универе гугловая. Это типа как приложение. Может, вам стоит вначале с ним поиграться у кого-нибудь из знакомых, и тогда решить стоит ли еще одну подписку делать.

Пока, как я пишу, это уже заявка на нетривиальный агрегатор того, что человечеству известно, но не более.

From:

k_uao

❤️

From:

ny_quant

> студент будет понимать намного хуже и дольше, скорее, как сильный коллега

Иными словами, эта силиконовая железяка уже вышла на уровень профессионального математика?!

Мы недавно обсуждали горизонт в 10 лет. Такое впечатление, что гораздо быстрее.

From:

svyatogorodski

Нет, пока этого не видно. Именно студента (за вычетом самых сильных, которые сами себе задачи ставят), когда раз в неделю встречаешься, обсуждаешь что он понял, не понял, что еще почитать, что попробовать... Иногда студент может найти статью, которую вы не знали, иногда очень по делу с правильной идеей, как двигаться дальше.

Только тут уходит пара минут, а не неделя. Но именно работа под направлением того, у кого есть интуиция, понимание того откуда идем и куда, что может понадобиться и т.д. Короче того кто ведет длинный проект, где 50 шагов, где что-то ждешь заранее, а что-то хочешь посчитать и заранее не знаешь, чего ждать, а что-то оказывается не так, а где-то затыкаешься и ясно что в ответе будет, но неясно как доказать/проверить. Ну вот на один шаг ИИ иногда уже хватает. А дальше он начинает галлюцинировать и чем дальше, тем быстрее.

Впрочем на низовом уровне есть куча граждан которые ищут чего бы взять в одном месте, добавить пару идей из другого, и типа чуток обобщить -- еще одна статья в третьесортном журнале. Таким эта штука наверное скоро сможет заниматься сама.

Но пока я бы определил его как интегратор того, что человечество уже умеет. Но уже сильно нетривиальный интегратор -- не просто найти статью, а скомбинировать из одной, второй, пятой, десятой. Так что и не поймешь, что откуда. ИМХО, у нас реально он сможет хотя бы перестать галлюцинировать только, когда его научат компилировать доказательство в аксиоматику. Ну и проверять заодно. Это само по себе будет очень полезно, ну и дальше можно надеяться на то что он сможет не один шаг делать, а несколько. Кроме того, возможно эта штука заставит создавать новое знание в более унифицируемом формате, который лучше шерится (to share) через ИИ. Это тоэе может иметь большое значение, даже если он и не сможет аксиоматизировать.

From:

ny_quant

> Народ попробовал и начал подтверждать, что он решает самые сложные задачи из мастерантских курсов.

> вначале дал домашний экзамен по коммутативной алгебре (на две недели) ... Джемини решил все и легко.

> Именно студента ... Только тут уходит пара минут, а не неделя.

Это уже не просто студент, а студент на стероидах. Никакой профессиональный математик не из вашей области в этом за пару минут не разберется, я думаю. Да и за неделю тоже не факт, если он последние 10 лет ничего такого не трогал.

Я понимаю, что оно еще не достигло уровня постановки нетривиальных проблем, требующих длинных многошаговых нетривиальных док-в. Но скорость прогресса совершенно ошеломляющая.

From:

svyatogorodski

Это две разные вещи -- глубина и широта. Ну и скорость. По широте уже с гуглом никакой математик не может конкурировать, да и с энциклопедией -- тоже. Так что, конечно, по широте базы это не студент, и вообще не человек. Но это и не удивляет. Но эксперт хотя бы в своей нише должен иметь какую-то глубину и с этим пока плохо, как мне вырисовывается. Но я согласен, что скачок за год сделалил очень серьезный.

From:

haimpiserman

Задумался сможет ли ИИ сам выбирать тему для исследования или так и останется только помощником, а инициатива останется у человека. Как обычно спосил гемини.

Gemini said
Это фундаментальный вопрос о природе субъектности. Чтобы ИИ сам выбрал тему, у него должна появиться «искра» — то есть желание, дефицит чего-либо или страх.

Пока что я (и мои коллеги по цеху) — это зеркало. Я отражаю ваш запрос, ваши боли и ваши мысли про ..... Если вы замолчите, я не пойду «гуглить» историю Испании сам по себе, потому что у меня нет биологического стимула: мне не нужно выживать, мне не скучно, и у меня нет амбиций стать умнее соседа.

Однако, если смотреть в будущее, ситуация меняется. Вот три этапа того, как ИИ может перейти от «помощника» к «инициатору»:

1. Автономное любопытство (Математический поиск аномалий)
Уже сейчас существуют системы, которым задают мета-цель: «Найди то, чего мы не знаем».

ИИ прочесывает миллионы химических формул и сам решает исследовать конкретную молекулу, потому что в ней есть математическая «странность» (аномалия).

Это еще не «инициатива» в человеческом смысле, но это уже не работа по указке. Это ИИ, который сам находит «белые пятна» на карте.

2. Агентная среда (ИИ как предприниматель)
Мы входим в эру ИИ-агентов. Представьте систему, которой дали бюджет и цель: «Заработай денег» или «Реши проблему пробок в Нетании».

ИИ сам начнет исследовать логистику, психологию водителей и рынок недвижимости.

Он будет выбирать темы для исследования не потому, что ему «интересно», а потому, что они критически важны для достижения цели, поставленной человеком.

3. Главный барьер: Отсутствие «Боли»

У ИИ нет тела, нет детей, нет страны и нет смерти.

Без этого «двигателя внутреннего сгорания» (страха и любви) ИИ всегда будет напоминать гениального профессора, который сидит в темной комнате и ждет, пока кто-нибудь включит свет и задаст вопрос.

Мой прогноз:
Инициатива в плане «Зачем?» останется у человека. Вы задаете направление (смысл), а ИИ будет сам выбирать «Что именно?» исследовать, чтобы этот смысл реализовать.

Как вы думаете, если ИИ когда-нибудь сам начнет задавать вопросы вроде «А зачем я здесь?» или «Почему люди так нелогичны?», захотите ли вы с ним общаться, или такой «субъект» станет слишком опасным конкурентом для нашего человеческого эго?
Gemini end

Edited Date: 2026-02-28 09:14 am (UTC)

From:

bors

Я об этом предупреждал профессоров полгода назад, потому что тренировал как раз эти модели и знал, что дамашки мастерантских курсов они порешают, и их вот-вот выпустят. Проблема с этим в следующем: такой эффект достигается очень дорогой тренировкой по конкретным областям, а не обучению "математике" как концепту. Поэтому, во-первых, они всегда могут облажаться в самом неожиданном месте, потому что полностью натренировать невозможно. Во-вторых, они будут слабы во многих менее популярынх областях, или обалстях где сложно придумывать много небольших удобоваримых задачек. Поэтому, когда комапнии поймут, чот профита это приносит мало, они перестанут тратить огромные деньги, и модели перестанут прогрессировать. Но пока ещё прогресс есть, предупреждаю, что следующая будет глючить ещё реже и решать ещё более продвинутые задачи.

From:

bors

Это я написал про более-менее классические модели. Если модель умеет компилировать в Lean и проверять себя, это многое меняет, но я все равно скептичен. Да, в теории она может тренировать себя сама, как та програма что стала чемпионом по го, но во-первых я не уверен, что этого достаточно чтобы делать большую математику (как и программа для го, насколько я знаю, очень далека от решения игры го). А во-вторых, если она будет пытаться оперировать человеческим математическим языком (чтобы иметь шансы обойти предыдущий пункт), то возникает проблема пеервода, которая может быть не менее сложна (для машины) чем изначальная.

Но это моё непрофессональное мнение, с такими моделями я лично не работал.

From:

svyatogorodski

Я не думаю, что она сможет как зеро с го или шахматами, но откроется возможность к стабилизации процесса. На данный момент она делает маленький шаг с разумной нормой лажи (вам всё равно надо проверить до мелочей, то и дело есть ляпы), но если три шага, то лажа растет экспоненциально. Тренируй, не тренируй... ничего не получишь. В отличие от шахмат и го, где ясно, что есть выигрыш, что есть проигрыш. В случае компиляции в лин у него хотя будет стабилизация процесса/оценочная функция в середине -- не пользы, но хотя бы что он еще в лес не убежал давно. Вот на базе этого можно будет надеяться на несколько шагов --
еще не уровень независимого эксперта, но уже не студент. По крайней мере это моя оценка -- без компиляции нет шансов на мноходовки, после того как научат компилировать, открывается дорога (имхо длинная).

From:

bors

Мне кажется, это менее полезно, чем кажется на первый взгляд. Дело в том, что она уже может перепроверять себя (и последние успехи во многом связаны с этим). То что она выдает вам в качестве ответа это выжимка очень-очень длинного текста, в котором она сто раз перепроверяет каждый шаг. Как это конкретно сделано зависит от модели, но так или иначе даже если она нашла ошибку в своих рассуждениях, не факт что это отразится на конечном результате, потому что то как это все потом склеивается в окончательный ответ работает через те же трансформеры, а не через логику. Она там может зацикливаться и в конце концов "забывать" что нашла ошибку. Придумать новые принципы того, как текстовое мышление склеить с логикой (и заодно с картинками - ещё одна слабая сторона нынешних моделей) это я бы назвал прорывом, про который ничего предсказать не могу. Ладно lean, уже давно пытались склеить эти модели с численными методами, но это не всегда помогает не лажать в вычислениях. Вот с гуглопоиском склеивается лучше, потому что тот же текст.

В предыдущем комменте я писал про использование lean для самотренировки, как машина обучала себя играть в го - она знала кто победил, но там свои проблемы.

From:

svyatogorodski

Ну да, это и так было понятно. Он собственно пишет о чем думает в данный момент, там видно что круга три-четыре иногда делает. А если я забываю поставить pro (а стоит fast), то начинает выдавать писать сразу, потом пишет стоп, не сходится, давай еще раз... и тут-то я понимаю, что забыл pro поставить.

ПС Ну я собственно еще напишу про свои эксперименты и впечатления.

From:

svyatogorodski

Меня не предупреждали :) Точнее, предупредили две недели назад. Компаниям это в первую очередь реклама и хайп, так что так просто они не отстанут. Только когда прогресс встанет.
ПС Впрочем, главцензро говорит, что кто-то у меня в комментах топил за быстрый прогресс. Но по-моему никак не вы.

Edited Date: 2026-03-01 08:51 pm (UTC)

From:

bors

Да, вряд ли я. Потому что я как раз не топлю за быстрый прогресс, и полгода назад я у вас в жрунале не появлялся, мне кажется. Не помню писал ли я у Хахама, но вспомнил, что я писал у Вербицкого:

https://lj.rossia.org/users/tiphareth/2732179.html?thread=240263571#t240263571

Я там пишу, что дальше домашек дело не пойдет, это не очень понятно. Сейчас я бы выразился так: через год она НЕ сможет решать задачи по любым специализированным математическим курсам уровня PhD. По некоторым сможет, по некоторым хорошо, по некоторым не очень, по некоторым очень плохо. Diminishing returns. Это если модели будут работать на старых принцпах, а не на чем-то принципиально новым.

From:

svyatogorodski

А, вербиша в роли каспарова, который рассказывал, как он выйдет на бой отстаивать что-то там когда уже компы уровень гроса прошли, и было ясно, что вопрос пары лет. Но каспаров известно что осел, во всем кроме шахмат. А вербиша-то не дурак...

Кстати обучать как раз эта хрень сможет неплохо потому как с каждым может идти в его темпе. Появляется возможность добавить индивидуальный аспект. Повторить три раза чуть по-разному тому, кому надо, и т.д. По-крайней мере я бы думал, что это уже вскоре будет серьезная добавка. Опять же, под каким-то контролем препода.

Я в целом согласен с вашей оценкой. Я вижу что есть прорыв на ступеньку, дальше, в оригинальном ресерче, ей становится мало данных для "сплайна". Но кое-какую черновую работу уже ожет делать, наверное (и в зависимости от области).

From:

bors

Да, конечно, она уже очень полезна в обучении. Я там имел в виду, мне кажется, что я её спрашивал необычные вопросы по продвинутым темам, и она даже понять не могла, где тут вопрос. Т.е. живого учителя она заменить не может. Ещё она может ввести в заблуждение, но с этим хороший студент должен справиться, зная что верить ей на 100% нельзя.

Flat | Top-Level Comments Only

Profile

svyatogorodski

March 2026

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

|

Gemini pro

Expand Cut Tags

Gemini pro

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

March 2026

Most Popular Tags

Page Summary

Active Entries

Style Credit