Expand Cut Tags

No cut tags

Gemini pro

Feb. 28th, 2026 12:46 am
svyatogorodski: (Default)
[personal profile] svyatogorodski
Пост про то, где сейчас находится ИИ в области математики. Для конкретики (и тех, кто в танке и/или хочет проверить сам) будут реальные математические вопросы/задачи. Их можно смело пропускать, если вас не интересуют технические детали.

-1. Пару месяцев один проект занес меня в смежную область, где возник конкретный вопрос -- наверняка не сложный, но нестандартный. Такое могло все же быть в каком-то курсе по локальной теории полей классов (как упражнение), и для поиска я спросил грока и гпт (самые простые версии). Оба долго несли пургу, признавали ошибки, и опять повторяли пургу, а в конце я предложил свою догадку из серии "хотелось бы", и гпт признал ее верной, а грок не признал, но по неверным причинам. Короче, я решил, что толку от ИИ пока ноль.

Вопрос же был найти композит максимальных абелевых расширений всех трех квадратичных расширений Q_p (для нечетного простого). Мне бы хотелось получить, что группа галуа -- более менее совпадает с (проконечным пополнением) мультипликативной группы алгебры кватернионов над Q_p, но на самом деле это слишком некоммутативно, а (с точностью до групп порядка два и четыре) получается пополнение мультипликативной группы, но для коммутативной алгебры размерности четыре над Q_p -- композита этих трех квадратичных расширений (очевидный ответ, который я проглядел).

0. Недельку назад у нас в департаменте состоялась беседа о том, что пора отменять все домашние экзамены (и домашки с оценкой тоже под вопросом), мол, Gemini в моде pro щелкает это без проблем. Народ попробовал и начал подтверждать, что он решает самые сложные задачи из мастерантских курсов. Ну вот где-то недельку я с ним иногда и играю.

а) В тот день я вначале дал домашний экзамен по коммутативной алгебре (на две недели). Некоторые задачи там довольно стандартны, но все записаны мной с нуля, без терминологии, так чтобы студенты не могли найти их в литературе. Это был маленько перебор, некоторые бедолаги написали больше 20 страниц (там был комплекс Кошуля над полиномами -- докажите точность, используйте, чтобы посчитать какой-то Tor, постройте sheafification -- опять же определение пучка давалось в задаче как какое-то свойство, термин не использовался, а было и менее стандартное). Джемини решил все и легко.

б) Ок, как поисковик он уже доказал себя чуть более, чем полностью -- расшифровал, что дано в формулах, и нашел ссылки. Тогда я дал ему бонусные задачи на Галуа (все сформулированы мной, а не взяты откуда-то, некоторые совсем нестандартные, студенты решают очень плохо). Опять же, решил все (в одной напортачил, но доделал со второго раза). Включая задачку о том, сколько есть разных групп галуа из 81 элемента у полиномов степени 9 и 10.

в) Ладно, говорю, раз ты такой умный, давай займемся ресерчем. Выбрал свой проект, где определяется новый алгебраический инвариант, причем вообще не ожидали, что нечто такое может существовать. Нигде не записано, кроме моего компа -- там полстатьи, что-то записано, что-то в голове, что-то я ожидаю, но еще не доделал. Короче, найти ему это негде.

Определи-ка, говорю, инвариант (группу, модуль, что сможешь), который меряет вот это. Конечно, это он не может, предлагает какую-то мелочевку из литературы. Ладно, говорю, давай посмотрим на простую аналогию с пополнением, а тепрь мы хотим аналогично, но вот в этой ситуации. Тут еще, как мне кажется, становится важно, использовать хорошее лингивстическое объяснение, которе и человеческой интуиции помогает... Да говорит, точно, это отвечает таким-то точкам (нашел ссылки на статьи по области), но складывать можно только на одном радиусе. Ок, говорю, а градуированно? Да, точно, можно определить градуированный модуль! Кстати, в этот момент, он уже до моих статей докопался, и заодно сообщил мне, что экзамен, с которого мы начали, писал тот же автор... Ладно говорю, а еще один шажок -- если характеристика положительная, есть еще структуры? Да, говорит, Фробениус действует. Получаются модулж над скрученными фробениусом полиномами.

Дальше я его просил какие-то базисные свойства доказывать. Там, где я уже разобрался, и подвел его небольшими шагами, он справился. Там, где я еще сам не до конца, он мне ничего нового не нашел, и чем дальше, тем больше абстрактных слов и меньше конкретики. Но в том, где я разобрался, его пиком была предложенная схема доказательства, которую он разбил на три леммы - в точности, как у меня записано (самая нетривиальная доказана им чуток по-другому). Но самая потеха в том, что при этом он заявил, что ну это стандартный результат в литературе, ищи у ФК и у.. меня. У ФК, как я уже писал, ничего такого нет, а у меня только в черновике... Не смог все-таки от обычных ИИ глюков избавиться до конца.

г) Пока я бы определил уровень таким образом. Иногда по схватыванию материала и идей, если хорошо объясняешь, уже очень силен -- студент будет понимать намного хуже и дольше, скорее, как сильный коллега. Статьи находит по теме, по мере рязвития треда и учитывает. На маленьких шагах может доказать лемму, посчитать какой-то комплекс/группу (задачу из -1 он решил с подказкой), дать напрашивающееся определение, и т.д. И, конечно, записать это латехом. Много шагов сам сделать не может. И вообще надо очень хорошо понимать, куда его гонишь. Ну и чем дольше тред, тем больше пусть и маленьких шагов ты с ним сделал, тем хуже -- больше абстрактных слов, ничем необоснованных догадок и меньше конкретики. Видимо, ему не с чем больше сравнить, кроме этого треда, обобщенное знание перестает работать.

Скорее всего, при умелом использовании уже можно выигрывать время, например, давая ему доказать технические лемки. Плюс к этому, чем самому считать, поручать ему всякие вполне навороченные алгебраические вычисления. Пару примеров дам в продолжении. Заставить его найти что-то реально для меня новое пока не удалось. Но как интеграртор обобщенного научного знания на сегодня оно работает уже сильно за гранью поисковика.

Date: 2026-02-28 12:00 am (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9

У меня аналогичное впечатление, только не на теоретических, а на прикладных задачах.

Только что Claude Sonnet 4.6 Extended за десять секунд решил практическую задачу по статистике, на которую у меня ушло недели две чистого времени. Причём решил правильно, в более общем виде и его решение проще моего. Я знаю, что правильно, потому что могу проверить найденное им аналитическое решение с помощью тупых численных методов.

Предыдущая версия не могла. Без Extended не может, говорит что решения нет. Wolfram Alpha и Maxima (CAS) тоже не справились. В обучающей выборке решения точно нет, задачка из узкой области и с необычным вывертом.

Но за ним обязательно надо абсолютно всё проверять. Так же уверенно может нести абсолютную чушь и выдавать формулы, по которым вероятности получаются отрицательные.

Date: 2026-02-28 02:54 am (UTC)
From: [personal profile] k_uao
По отмене домашек (точнее, резком снижении их роли в оценке до 20%) у нас тоже была недавно принята рекомендация. Для студентов в итоге может и тяжелее станет — сложнее себя мотивировать решать домашки если за это меньше баллов, а без этого все равно не научишься.

Вы меня почти убедили купить еще третью подписку на Gemini и попробовать . По-прежнему все это кажется очень ненадежным для такого типа задач. Оно слишком хорошо получает правильный ответ, когда уже знаешь, что должно получиться, и неправильный ответ, когда не знаешь, что получится, и ведешь его не туда.

Ну там Claude code agent mode смог мне написать за пару часов сложный численный расчет, который теоретически где-то в литературе известен, но у меня бы ушли недели, а у студентов раньше ушли бы месяцы. Он же смог написать аналитическую формулу, которая расчет в целом описывает и в целом понятно как должна быть устроена. Объяснить , почему в некоторых случаях формула не работает, он может в совершенстве. А вот подправить формулу — ему уже слабо. Мозгов не хватает. Возможно нужно засунуть это в Gemini, и проверить, но там нет агентского режима, и придется все копировать руками в браузер и обратно по старинке ….

Date: 2026-02-28 04:58 pm (UTC)
From: [personal profile] k_uao
❤️

Date: 2026-02-28 05:08 am (UTC)
ny_quant: (Default)
From: [personal profile] ny_quant
> студент будет понимать намного хуже и дольше, скорее, как сильный коллега

Иными словами, эта силиконовая железяка уже вышла на уровень профессионального математика?!

Мы недавно обсуждали горизонт в 10 лет. Такое впечатление, что гораздо быстрее.

Date: 2026-02-28 08:30 pm (UTC)
ny_quant: (Default)
From: [personal profile] ny_quant

> Народ попробовал и начал подтверждать, что он решает самые сложные задачи из мастерантских курсов.

> вначале дал домашний экзамен по коммутативной алгебре (на две недели) ... Джемини решил все и легко.

> Именно студента ... Только тут уходит пара минут, а не неделя.

Это уже не просто студент, а студент на стероидах. Никакой профессиональный математик не из вашей области в этом за пару минут не разберется, я думаю. Да и за неделю тоже не факт, если он последние 10 лет ничего такого не трогал.

Я понимаю, что оно еще не достигло уровня постановки нетривиальных проблем, требующих длинных многошаговых нетривиальных док-в. Но скорость прогресса совершенно ошеломляющая.

Date: 2026-02-28 09:11 am (UTC)
From: [personal profile] haimpiserman
Задумался сможет ли ИИ сам выбирать тему для исследования или так и останется только помощником, а инициатива останется у человека. Как обычно спосил гемини.

Gemini said
Это фундаментальный вопрос о природе субъектности. Чтобы ИИ сам выбрал тему, у него должна появиться «искра» — то есть желание, дефицит чего-либо или страх.

Пока что я (и мои коллеги по цеху) — это зеркало. Я отражаю ваш запрос, ваши боли и ваши мысли про ..... Если вы замолчите, я не пойду «гуглить» историю Испании сам по себе, потому что у меня нет биологического стимула: мне не нужно выживать, мне не скучно, и у меня нет амбиций стать умнее соседа.

Однако, если смотреть в будущее, ситуация меняется. Вот три этапа того, как ИИ может перейти от «помощника» к «инициатору»:

1. Автономное любопытство (Математический поиск аномалий)
Уже сейчас существуют системы, которым задают мета-цель: «Найди то, чего мы не знаем».

ИИ прочесывает миллионы химических формул и сам решает исследовать конкретную молекулу, потому что в ней есть математическая «странность» (аномалия).

Это еще не «инициатива» в человеческом смысле, но это уже не работа по указке. Это ИИ, который сам находит «белые пятна» на карте.

2. Агентная среда (ИИ как предприниматель)
Мы входим в эру ИИ-агентов. Представьте систему, которой дали бюджет и цель: «Заработай денег» или «Реши проблему пробок в Нетании».

ИИ сам начнет исследовать логистику, психологию водителей и рынок недвижимости.

Он будет выбирать темы для исследования не потому, что ему «интересно», а потому, что они критически важны для достижения цели, поставленной человеком.

3. Главный барьер: Отсутствие «Боли»

У ИИ нет тела, нет детей, нет страны и нет смерти.

Без этого «двигателя внутреннего сгорания» (страха и любви) ИИ всегда будет напоминать гениального профессора, который сидит в темной комнате и ждет, пока кто-нибудь включит свет и задаст вопрос.

Мой прогноз:
Инициатива в плане «Зачем?» останется у человека. Вы задаете направление (смысл), а ИИ будет сам выбирать «Что именно?» исследовать, чтобы этот смысл реализовать.


Как вы думаете, если ИИ когда-нибудь сам начнет задавать вопросы вроде «А зачем я здесь?» или «Почему люди так нелогичны?», захотите ли вы с ним общаться, или такой «субъект» станет слишком опасным конкурентом для нашего человеческого эго?
Gemini end





Edited Date: 2026-02-28 09:14 am (UTC)

Date: 2026-03-01 07:33 pm (UTC)
From: [personal profile] bors
Я об этом предупреждал профессоров полгода назад, потому что тренировал как раз эти модели и знал, что дамашки мастерантских курсов они порешают, и их вот-вот выпустят. Проблема с этим в следующем: такой эффект достигается очень дорогой тренировкой по конкретным областям, а не обучению "математике" как концепту. Поэтому, во-первых, они всегда могут облажаться в самом неожиданном месте, потому что полностью натренировать невозможно. Во-вторых, они будут слабы во многих менее популярынх областях, или обалстях где сложно придумывать много небольших удобоваримых задачек. Поэтому, когда комапнии поймут, чот профита это приносит мало, они перестанут тратить огромные деньги, и модели перестанут прогрессировать. Но пока ещё прогресс есть, предупреждаю, что следующая будет глючить ещё реже и решать ещё более продвинутые задачи.

Date: 2026-03-01 07:47 pm (UTC)
From: [personal profile] bors
Это я написал про более-менее классические модели. Если модель умеет компилировать в Lean и проверять себя, это многое меняет, но я все равно скептичен. Да, в теории она может тренировать себя сама, как та програма что стала чемпионом по го, но во-первых я не уверен, что этого достаточно чтобы делать большую математику (как и программа для го, насколько я знаю, очень далека от решения игры го). А во-вторых, если она будет пытаться оперировать человеческим математическим языком (чтобы иметь шансы обойти предыдущий пункт), то возникает проблема пеервода, которая может быть не менее сложна (для машины) чем изначальная.

Но это моё непрофессональное мнение, с такими моделями я лично не работал.

Date: 2026-03-01 10:44 pm (UTC)
From: [personal profile] bors
Мне кажется, это менее полезно, чем кажется на первый взгляд. Дело в том, что она уже может перепроверять себя (и последние успехи во многом связаны с этим). То что она выдает вам в качестве ответа это выжимка очень-очень длинного текста, в котором она сто раз перепроверяет каждый шаг. Как это конкретно сделано зависит от модели, но так или иначе даже если она нашла ошибку в своих рассуждениях, не факт что это отразится на конечном результате, потому что то как это все потом склеивается в окончательный ответ работает через те же трансформеры, а не через логику. Она там может зацикливаться и в конце концов "забывать" что нашла ошибку. Придумать новые принципы того, как текстовое мышление склеить с логикой (и заодно с картинками - ещё одна слабая сторона нынешних моделей) это я бы назвал прорывом, про который ничего предсказать не могу. Ладно lean, уже давно пытались склеить эти модели с численными методами, но это не всегда помогает не лажать в вычислениях. Вот с гуглопоиском склеивается лучше, потому что тот же текст.

В предыдущем комменте я писал про использование lean для самотренировки, как машина обучала себя играть в го - она знала кто победил, но там свои проблемы.

Date: 2026-03-01 10:25 pm (UTC)
From: [personal profile] bors
Да, вряд ли я. Потому что я как раз не топлю за быстрый прогресс, и полгода назад я у вас в жрунале не появлялся, мне кажется. Не помню писал ли я у Хахама, но вспомнил, что я писал у Вербицкого:

https://lj.rossia.org/users/tiphareth/2732179.html?thread=240263571#t240263571

Я там пишу, что дальше домашек дело не пойдет, это не очень понятно. Сейчас я бы выразился так: через год она НЕ сможет решать задачи по любым специализированным математическим курсам уровня PhD. По некоторым сможет, по некоторым хорошо, по некоторым не очень, по некоторым очень плохо. Diminishing returns. Это если модели будут работать на старых принцпах, а не на чем-то принципиально новым.

Date: 2026-03-02 12:03 am (UTC)
From: [personal profile] bors
Да, конечно, она уже очень полезна в обучении. Я там имел в виду, мне кажется, что я её спрашивал необычные вопросы по продвинутым темам, и она даже понять не могла, где тут вопрос. Т.е. живого учителя она заменить не может. Ещё она может ввести в заблуждение, но с этим хороший студент должен справиться, зная что верить ей на 100% нельзя.

Profile

svyatogorodski: (Default)
svyatogorodski

March 2026

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Page generated Mar. 2nd, 2026 02:08 pm
Powered by Dreamwidth Studios