Gemini pro
Feb. 28th, 2026 12:46 amПост про то, где сейчас находится ИИ в области математики. Для конкретики (и тех, кто в танке и/или хочет проверить сам) будут реальные математические вопросы/задачи. Их можно смело пропускать, если вас не интересуют технические детали.
-1. Пару месяцев один проект занес меня в смежную область, где возник конкретный вопрос -- наверняка не сложный, но нестандартный. Такое могло все же быть в каком-то курсе по локальной теории полей классов (как упражнение), и для поиска я спросил грока и гпт (самые простые версии). Оба долго несли пургу, признавали ошибки, и опять повторяли пургу, а в конце я предложил свою догадку из серии "хотелось бы", и гпт признал ее верной, а грок не признал, но по неверным причинам. Короче, я решил, что толку от ИИ пока ноль.
Вопрос же был найти композит максимальных абелевых расширений всех трех квадратичных расширений Q_p (для нечетного простого). Мне бы хотелось получить, что группа галуа -- более менее совпадает с (проконечным пополнением) мультипликативной группы алгебры кватернионов над Q_p, но на самом деле это слишком некоммутативно, а (с точностью до групп порядка два и четыре) получается пополнение мультипликативной группы, но для коммутативной алгебры размерности четыре над Q_p -- композита этих трех квадратичных расширений (очевидный ответ, который я проглядел).
0. Недельку назад у нас в департаменте состоялась беседа о том, что пора отменять все домашние экзамены (и домашки с оценкой тоже под вопросом), мол, Gemini в моде pro щелкает это без проблем. Народ попробовал и начал подтверждать, что он решает самые сложные задачи из мастерантских курсов. Ну вот где-то недельку я с ним иногда и играю.
а) В тот день я вначале дал домашний экзамен по коммутативной алгебре (на две недели). Некоторые задачи там довольно стандартны, но все записаны мной с нуля, без терминологии, так чтобы студенты не могли найти их в литературе. Это был маленько перебор, некоторые бедолаги написали больше 20 страниц (там был комплекс Кошуля над полиномами -- докажите точность, используйте, чтобы посчитать какой-то Tor, постройте sheafification -- опять же определение пучка давалось в задаче как какое-то свойство, термин не использовался, а было и менее стандартное). Джемини решил все и легко.
б) Ок, как поисковик он уже доказал себя чуть более, чем полностью -- расшифровал, что дано в формулах, и нашел ссылки. Тогда я дал ему бонусные задачи на Галуа (все сформулированы мной, а не взяты откуда-то, некоторые совсем нестандартные, студенты решают очень плохо). Опять же, решил все (в одной напортачил, но доделал со второго раза). Включая задачку о том, сколько есть разных групп галуа из 81 элемента у полиномов степени 9 и 10.
в) Ладно, говорю, раз ты такой умный, давай займемся ресерчем. Выбрал свой проект, где определяется новый алгебраический инвариант, причем вообще не ожидали, что нечто такое может существовать. Нигде не записано, кроме моего компа -- там полстатьи, что-то записано, что-то в голове, что-то я ожидаю, но еще не доделал. Короче, найти ему это негде.
Определи-ка, говорю, инвариант (группу, модуль, что сможешь), который меряет вот это. Конечно, это он не может, предлагает какую-то мелочевку из литературы. Ладно, говорю, давай посмотрим на простую аналогию с пополнением, а тепрь мы хотим аналогично, но вот в этой ситуации. Тут еще, как мне кажется, становится важно, использовать хорошее лингивстическое объяснение, которе и человеческой интуиции помогает... Да говорит, точно, это отвечает таким-то точкам (нашел ссылки на статьи по области), но складывать можно только на одном радиусе. Ок, говорю, а градуированно? Да, точно, можно определить градуированный модуль! Кстати, в этот момент, он уже до моих статей докопался, и заодно сообщил мне, что экзамен, с которого мы начали, писал тот же автор... Ладно говорю, а еще один шажок -- если характеристика положительная, есть еще структуры? Да, говорит, Фробениус действует. Получаются модулж над скрученными фробениусом полиномами.
Дальше я его просил какие-то базисные свойства доказывать. Там, где я уже разобрался, и подвел его небольшими шагами, он справился. Там, где я еще сам не до конца, он мне ничего нового не нашел, и чем дальше, тем больше абстрактных слов и меньше конкретики. Но в том, где я разобрался, его пиком была предложенная схема доказательства, которую он разбил на три леммы - в точности, как у меня записано (самая нетривиальная доказана им чуток по-другому). Но самая потеха в том, что при этом он заявил, что ну это стандартный результат в литературе, ищи у ФК и у.. меня. У ФК, как я уже писал, ничего такого нет, а у меня только в черновике... Не смог все-таки от обычных ИИ глюков избавиться до конца.
г) Пока я бы определил уровень таким образом. Иногда по схватыванию материала и идей, если хорошо объясняешь, уже очень силен -- студент будет понимать намного хуже и дольше, скорее, как сильный коллега. Статьи находит по теме, по мере рязвития треда и учитывает. На маленьких шагах может доказать лемму, посчитать какой-то комплекс/группу (задачу из -1 он решил с подказкой), дать напрашивающееся определение, и т.д. И, конечно, записать это латехом. Много шагов сам сделать не может. И вообще надо очень хорошо понимать, куда его гонишь. Ну и чем дольше тред, тем больше пусть и маленьких шагов ты с ним сделал, тем хуже -- больше абстрактных слов, ничем необоснованных догадок и меньше конкретики. Видимо, ему не с чем больше сравнить, кроме этого треда, обобщенное знание перестает работать.
Скорее всего, при умелом использовании уже можно выигрывать время, например, давая ему доказать технические лемки. Плюс к этому, чем самому считать, поручать ему всякие вполне навороченные алгебраические вычисления. Пару примеров дам в продолжении. Заставить его найти что-то реально для меня новое пока не удалось. Но как интеграртор обобщенного научного знания на сегодня оно работает уже сильно за гранью поисковика.
-1. Пару месяцев один проект занес меня в смежную область, где возник конкретный вопрос -- наверняка не сложный, но нестандартный. Такое могло все же быть в каком-то курсе по локальной теории полей классов (как упражнение), и для поиска я спросил грока и гпт (самые простые версии). Оба долго несли пургу, признавали ошибки, и опять повторяли пургу, а в конце я предложил свою догадку из серии "хотелось бы", и гпт признал ее верной, а грок не признал, но по неверным причинам. Короче, я решил, что толку от ИИ пока ноль.
Вопрос же был найти композит максимальных абелевых расширений всех трех квадратичных расширений Q_p (для нечетного простого). Мне бы хотелось получить, что группа галуа -- более менее совпадает с (проконечным пополнением) мультипликативной группы алгебры кватернионов над Q_p, но на самом деле это слишком некоммутативно, а (с точностью до групп порядка два и четыре) получается пополнение мультипликативной группы, но для коммутативной алгебры размерности четыре над Q_p -- композита этих трех квадратичных расширений (очевидный ответ, который я проглядел).
0. Недельку назад у нас в департаменте состоялась беседа о том, что пора отменять все домашние экзамены (и домашки с оценкой тоже под вопросом), мол, Gemini в моде pro щелкает это без проблем. Народ попробовал и начал подтверждать, что он решает самые сложные задачи из мастерантских курсов. Ну вот где-то недельку я с ним иногда и играю.
а) В тот день я вначале дал домашний экзамен по коммутативной алгебре (на две недели). Некоторые задачи там довольно стандартны, но все записаны мной с нуля, без терминологии, так чтобы студенты не могли найти их в литературе. Это был маленько перебор, некоторые бедолаги написали больше 20 страниц (там был комплекс Кошуля над полиномами -- докажите точность, используйте, чтобы посчитать какой-то Tor, постройте sheafification -- опять же определение пучка давалось в задаче как какое-то свойство, термин не использовался, а было и менее стандартное). Джемини решил все и легко.
б) Ок, как поисковик он уже доказал себя чуть более, чем полностью -- расшифровал, что дано в формулах, и нашел ссылки. Тогда я дал ему бонусные задачи на Галуа (все сформулированы мной, а не взяты откуда-то, некоторые совсем нестандартные, студенты решают очень плохо). Опять же, решил все (в одной напортачил, но доделал со второго раза). Включая задачку о том, сколько есть разных групп галуа из 81 элемента у полиномов степени 9 и 10.
в) Ладно, говорю, раз ты такой умный, давай займемся ресерчем. Выбрал свой проект, где определяется новый алгебраический инвариант, причем вообще не ожидали, что нечто такое может существовать. Нигде не записано, кроме моего компа -- там полстатьи, что-то записано, что-то в голове, что-то я ожидаю, но еще не доделал. Короче, найти ему это негде.
Определи-ка, говорю, инвариант (группу, модуль, что сможешь), который меряет вот это. Конечно, это он не может, предлагает какую-то мелочевку из литературы. Ладно, говорю, давай посмотрим на простую аналогию с пополнением, а тепрь мы хотим аналогично, но вот в этой ситуации. Тут еще, как мне кажется, становится важно, использовать хорошее лингивстическое объяснение, которе и человеческой интуиции помогает... Да говорит, точно, это отвечает таким-то точкам (нашел ссылки на статьи по области), но складывать можно только на одном радиусе. Ок, говорю, а градуированно? Да, точно, можно определить градуированный модуль! Кстати, в этот момент, он уже до моих статей докопался, и заодно сообщил мне, что экзамен, с которого мы начали, писал тот же автор... Ладно говорю, а еще один шажок -- если характеристика положительная, есть еще структуры? Да, говорит, Фробениус действует. Получаются модулж над скрученными фробениусом полиномами.
Дальше я его просил какие-то базисные свойства доказывать. Там, где я уже разобрался, и подвел его небольшими шагами, он справился. Там, где я еще сам не до конца, он мне ничего нового не нашел, и чем дальше, тем больше абстрактных слов и меньше конкретики. Но в том, где я разобрался, его пиком была предложенная схема доказательства, которую он разбил на три леммы - в точности, как у меня записано (самая нетривиальная доказана им чуток по-другому). Но самая потеха в том, что при этом он заявил, что ну это стандартный результат в литературе, ищи у ФК и у.. меня. У ФК, как я уже писал, ничего такого нет, а у меня только в черновике... Не смог все-таки от обычных ИИ глюков избавиться до конца.
г) Пока я бы определил уровень таким образом. Иногда по схватыванию материала и идей, если хорошо объясняешь, уже очень силен -- студент будет понимать намного хуже и дольше, скорее, как сильный коллега. Статьи находит по теме, по мере рязвития треда и учитывает. На маленьких шагах может доказать лемму, посчитать какой-то комплекс/группу (задачу из -1 он решил с подказкой), дать напрашивающееся определение, и т.д. И, конечно, записать это латехом. Много шагов сам сделать не может. И вообще надо очень хорошо понимать, куда его гонишь. Ну и чем дольше тред, тем больше пусть и маленьких шагов ты с ним сделал, тем хуже -- больше абстрактных слов, ничем необоснованных догадок и меньше конкретики. Видимо, ему не с чем больше сравнить, кроме этого треда, обобщенное знание перестает работать.
Скорее всего, при умелом использовании уже можно выигрывать время, например, давая ему доказать технические лемки. Плюс к этому, чем самому считать, поручать ему всякие вполне навороченные алгебраические вычисления. Пару примеров дам в продолжении. Заставить его найти что-то реально для меня новое пока не удалось. Но как интеграртор обобщенного научного знания на сегодня оно работает уже сильно за гранью поисковика.
no subject
Date: 2026-02-28 12:00 am (UTC)У меня аналогичное впечатление, только не на теоретических, а на прикладных задачах.
Только что Claude Sonnet 4.6 Extended за десять секунд решил практическую задачу по статистике, на которую у меня ушло недели две чистого времени. Причём решил правильно, в более общем виде и его решение проще моего. Я знаю, что правильно, потому что могу проверить найденное им аналитическое решение с помощью тупых численных методов.
Предыдущая версия не могла. Без Extended не может, говорит что решения нет. Wolfram Alpha и Maxima (CAS) тоже не справились. В обучающей выборке решения точно нет, задачка из узкой области и с необычным вывертом.
Но за ним обязательно надо абсолютно всё проверять. Так же уверенно может нести абсолютную чушь и выдавать формулы, по которым вероятности получаются отрицательные.
no subject
Date: 2026-02-28 08:44 am (UTC)no subject
Date: 2026-02-28 02:54 am (UTC)Вы меня почти убедили купить еще третью подписку на Gemini и попробовать . По-прежнему все это кажется очень ненадежным для такого типа задач. Оно слишком хорошо получает правильный ответ, когда уже знаешь, что должно получиться, и неправильный ответ, когда не знаешь, что получится, и ведешь его не туда.
Ну там Claude code agent mode смог мне написать за пару часов сложный численный расчет, который теоретически где-то в литературе известен, но у меня бы ушли недели, а у студентов раньше ушли бы месяцы. Он же смог написать аналитическую формулу, которая расчет в целом описывает и в целом понятно как должна быть устроена. Объяснить , почему в некоторых случаях формула не работает, он может в совершенстве. А вот подправить формулу — ему уже слабо. Мозгов не хватает. Возможно нужно засунуть это в Gemini, и проверить, но там нет агентского режима, и придется все копировать руками в браузер и обратно по старинке ….
no subject
Date: 2026-02-28 08:26 am (UTC)ПС Да они все получают хороший ответ, когда его ведешь куда надо. И чем больше шагов надо самому, тем скорее уходят в астрал. Но и со студентом то же самое. Да и не только со студентом...
У нас бесплатная версия, т.к. почта в универе гугловая. Это типа как приложение. Может, вам стоит вначале с ним поиграться у кого-нибудь из знакомых, и тогда решить стоит ли еще одну подписку делать.
Пока, как я пишу, это уже заявка на нетривиальный агрегатор того, что человечеству известно, но не более.
no subject
Date: 2026-02-28 04:58 pm (UTC)no subject
Date: 2026-02-28 05:08 am (UTC)Иными словами, эта силиконовая железяка уже вышла на уровень профессионального математика?!
Мы недавно обсуждали горизонт в 10 лет. Такое впечатление, что гораздо быстрее.
no subject
Date: 2026-02-28 08:41 am (UTC)Только тут уходит пара минут, а не неделя. Но именно работа под направлением того, у кого есть интуиция, понимание того откуда идем и куда, что может понадобиться и т.д. Короче того кто ведет длинный проект, где 50 шагов, где что-то ждешь заранее, а что-то хочешь посчитать и заранее не знаешь, чего ждать, а что-то оказывается не так, а где-то затыкаешься и ясно что в ответе будет, но неясно как доказать/проверить. Ну вот на один шаг ИИ иногда уже хватает. А дальше он начинает галлюцинировать и чем дальше, тем быстрее.
Впрочем на низовом уровне есть куча граждан которые ищут чего бы взять в одном месте, добавить пару идей из другого, и типа чуток обобщить -- еще одна статья в третьесортном журнале. Таким эта штука наверное скоро сможет заниматься сама.
Но пока я бы определил его как интегратор того, что человечество уже умеет. Но уже сильно нетривиальный интегратор -- не просто найти статью, а скомбинировать из одной, второй, пятой, десятой. Так что и не поймешь, что откуда. ИМХО, у нас реально он сможет хотя бы перестать галлюцинировать только, когда его научат компилировать доказательство в аксиоматику. Ну и проверять заодно. Это само по себе будет очень полезно, ну и дальше можно надеяться на то что он сможет не один шаг делать, а несколько. Кроме того, возможно эта штука заставит создавать новое знание в более унифицируемом формате, который лучше шерится (to share) через ИИ. Это тоэе может иметь большое значение, даже если он и не сможет аксиоматизировать.
no subject
Date: 2026-02-28 08:30 pm (UTC)> Народ попробовал и начал подтверждать, что он решает самые сложные задачи из мастерантских курсов.
> вначале дал домашний экзамен по коммутативной алгебре (на две недели) ... Джемини решил все и легко.
> Именно студента ... Только тут уходит пара минут, а не неделя.
Это уже не просто студент, а студент на стероидах. Никакой профессиональный математик не из вашей области в этом за пару минут не разберется, я думаю. Да и за неделю тоже не факт, если он последние 10 лет ничего такого не трогал.
Я понимаю, что оно еще не достигло уровня постановки нетривиальных проблем, требующих длинных многошаговых нетривиальных док-в. Но скорость прогресса совершенно ошеломляющая.
no subject
Date: 2026-02-28 09:32 pm (UTC)no subject
Date: 2026-02-28 09:11 am (UTC)Gemini said
Это фундаментальный вопрос о природе субъектности. Чтобы ИИ сам выбрал тему, у него должна появиться «искра» — то есть желание, дефицит чего-либо или страх.
Пока что я (и мои коллеги по цеху) — это зеркало. Я отражаю ваш запрос, ваши боли и ваши мысли про ..... Если вы замолчите, я не пойду «гуглить» историю Испании сам по себе, потому что у меня нет биологического стимула: мне не нужно выживать, мне не скучно, и у меня нет амбиций стать умнее соседа.
Однако, если смотреть в будущее, ситуация меняется. Вот три этапа того, как ИИ может перейти от «помощника» к «инициатору»:
1. Автономное любопытство (Математический поиск аномалий)
Уже сейчас существуют системы, которым задают мета-цель: «Найди то, чего мы не знаем».
ИИ прочесывает миллионы химических формул и сам решает исследовать конкретную молекулу, потому что в ней есть математическая «странность» (аномалия).
Это еще не «инициатива» в человеческом смысле, но это уже не работа по указке. Это ИИ, который сам находит «белые пятна» на карте.
2. Агентная среда (ИИ как предприниматель)
Мы входим в эру ИИ-агентов. Представьте систему, которой дали бюджет и цель: «Заработай денег» или «Реши проблему пробок в Нетании».
ИИ сам начнет исследовать логистику, психологию водителей и рынок недвижимости.
Он будет выбирать темы для исследования не потому, что ему «интересно», а потому, что они критически важны для достижения цели, поставленной человеком.
3. Главный барьер: Отсутствие «Боли»
У ИИ нет тела, нет детей, нет страны и нет смерти.
Без этого «двигателя внутреннего сгорания» (страха и любви) ИИ всегда будет напоминать гениального профессора, который сидит в темной комнате и ждет, пока кто-нибудь включит свет и задаст вопрос.
Мой прогноз:
Инициатива в плане «Зачем?» останется у человека. Вы задаете направление (смысл), а ИИ будет сам выбирать «Что именно?» исследовать, чтобы этот смысл реализовать.
Как вы думаете, если ИИ когда-нибудь сам начнет задавать вопросы вроде «А зачем я здесь?» или «Почему люди так нелогичны?», захотите ли вы с ним общаться, или такой «субъект» станет слишком опасным конкурентом для нашего человеческого эго?
Gemini end
no subject
Date: 2026-03-01 07:33 pm (UTC)no subject
Date: 2026-03-01 07:47 pm (UTC)Но это моё непрофессональное мнение, с такими моделями я лично не работал.
no subject
Date: 2026-03-01 08:47 pm (UTC)еще не уровень независимого эксперта, но уже не студент. По крайней мере это моя оценка -- без компиляции нет шансов на мноходовки, после того как научат компилировать, открывается дорога (имхо длинная).
no subject
Date: 2026-03-01 10:44 pm (UTC)В предыдущем комменте я писал про использование lean для самотренировки, как машина обучала себя играть в го - она знала кто победил, но там свои проблемы.
no subject
Date: 2026-03-01 11:04 pm (UTC)ПС Ну я собственно еще напишу про свои эксперименты и впечатления.
no subject
Date: 2026-03-01 08:49 pm (UTC)ПС Впрочем, главцензро говорит, что кто-то у меня в комментах топил за быстрый прогресс. Но по-моему никак не вы.
no subject
Date: 2026-03-01 10:25 pm (UTC)https://lj.rossia.org/users/tiphareth/2732179.html?thread=240263571#t240263571
Я там пишу, что дальше домашек дело не пойдет, это не очень понятно. Сейчас я бы выразился так: через год она НЕ сможет решать задачи по любым специализированным математическим курсам уровня PhD. По некоторым сможет, по некоторым хорошо, по некоторым не очень, по некоторым очень плохо. Diminishing returns. Это если модели будут работать на старых принцпах, а не на чем-то принципиально новым.
no subject
Date: 2026-03-01 11:01 pm (UTC)Кстати обучать как раз эта хрень сможет неплохо потому как с каждым может идти в его темпе. Появляется возможность добавить индивидуальный аспект. Повторить три раза чуть по-разному тому, кому надо, и т.д. По-крайней мере я бы думал, что это уже вскоре будет серьезная добавка. Опять же, под каким-то контролем препода.
Я в целом согласен с вашей оценкой. Я вижу что есть прорыв на ступеньку, дальше, в оригинальном ресерче, ей становится мало данных для "сплайна". Но кое-какую черновую работу уже ожет делать, наверное (и в зависимости от области).
no subject
Date: 2026-03-02 12:03 am (UTC)