Newsletter

Чому математика - це складно (навіть якщо ви штучний інтелект)

Мовні моделі не вміють множити і запам'ятовувати результати так, як ми запам'ятовуємо число пі, але це не робить їх математиками. Проблема структурна: вони навчаються за статистичною схожістю, а не за алгоритмічним розумінням. Навіть нові "моделі мислення", такі як o1, не справляються з тривіальними завданнями: вони правильно рахують "r" у слові "полуниця" після декількох секунд обробки, але не можуть написати абзац, де друга буква кожного речення складає слово. Преміум-версія за 200 доларів на місяць витрачає чотири хвилини на те, що дитина робить миттєво. DeepSeek і Mistral у 2025 році все ще неправильно рахують літери. Яке рішення з'являється? Гібридний підхід - найрозумніші моделі з'ясували, коли потрібно викликати справжній калькулятор, а не намагатися обчислити самостійно. Зміна парадигми: ШІ не повинен знати, як робити все, а лише організувати правильні інструменти. Останній парадокс: GPT-4 може блискуче пояснити вам теорію меж, але неправильно виконує множення, які кишеньковий калькулятор завжди виконує правильно. Для навчання математики вони чудові - пояснюють з безмежним терпінням, адаптують приклади, розбивають складні міркування. Для точних розрахунків? Точно на калькулятор, а не на штучний інтелект.

Підсумуйте цю статтю за допомогою ШІ

Багато хто покладається на LLM також для виконання математичних операцій. Такий підхід не працює .

Проблема насправді проста: великі мовні моделі (ВММ) насправді не вміють множити. Іноді вони можуть отримати правильний результат, так само, як я можу знати значення числа пі напам'ять. Але це не означає, що я математик, так само як і те, що БММ дійсно знають математику.

Практичний приклад

Приклад: 49858 *59949 = 298896167242 Цей результат завжди однаковий, тут немає середини. Він або правильний, або неправильний.

Навіть з масивною математичною підготовкою найкращим моделям вдається правильно розв'язувати лише частину операцій. З іншого боку, простий кишеньковий калькулятор завжди отримує 100% правильних результатів. І чим більшими стають цифри, тим гірші результати роботи LLM.

Чи можливо вирішити цю проблему?

Основна проблема полягає в тому, що ці моделі навчаються за подібністю, а не за розумінням. Вони найкраще працюють з проблемами, схожими на ті, на яких їх навчали, але ніколи не розвивають справжнього розуміння того, що вони говорять.

Для тих, хто хоче дізнатися більше, я пропоную цю статтю про "як працює LLM".

З іншого боку, калькулятор використовує точний алгоритм, запрограмований для виконання математичних операцій.

Ось чому ми ніколи не повинні повністю покладатися на LLM для математичних розрахунків: навіть за найкращих умов, з величезними обсягами конкретних навчальних даних, вони не можуть гарантувати надійність навіть у найпростіших операціях. Гібридний підхід може спрацювати, але одних лише LLM недостатньо. Можливо, цей підхід буде використаний для вирішення так званої"полуничної проблеми".

Застосування магістерських програм з математики у вивченні математики

В освітньому контексті LLM можуть виступати в ролі персоналізованих тьюторів, здатних адаптувати пояснення до рівня розуміння студента. Наприклад, коли студент стикається із задачею з диференціального числення, LLM може розбити міркування на простіші кроки, надаючи детальні пояснення для кожного етапу процесу розв'язання. Такий підхід допомагає сформувати міцне розуміння фундаментальних понять.

Особливо цікавим аспектом є здатність магістрів наводити релевантні та різноманітні приклади. Якщо студент намагається зрозуміти концепцію межі, LLM може представити різні математичні сценарії, починаючи з простих випадків і переходячи до більш складних ситуацій, таким чином забезпечуючи поступове розуміння концепції.

Одним із перспективних застосувань є використання LLM для перекладу складних математичних понять на більш доступну природну мову. Це полегшує донесення математики до ширшої аудиторії і може допомогти подолати традиційний бар'єр доступу до цієї дисципліни.

Магістри також можуть допомагати у підготовці навчальних матеріалів, створюючи вправи різної складності та надаючи детальний зворотній зв'язок щодо запропонованих студентами рішень. Це дозволяє викладачам краще адаптувати навчальний процес для своїх студентів.

Реальна перевага

У більш загальному плані слід також розглянути надзвичайну "терплячість" у допомозі навіть найменш "здібним" учням у навчанні: у цьому випадку допомагає відсутність емоцій. Незважаючи на це, навіть ай іноді "втрачає терпіння". Дивіться цей "кумедний приклад.

Оновлення 2025: Моделі міркувань та гібридний підхід

2024-2025 роки принесли значні зміни з появою так званих "моделей міркувань", таких як OpenAI o1 та deepseek R1. Ці моделі досягли вражаючих результатів у математичних тестах: o1 правильно розв'язує 83% завдань на Міжнародній математичній олімпіаді, порівняно з 13% для GPT-4o. Але будьте обережні: вони не вирішили фундаментальну проблему, описану вище.

Проблема з полуницею - підрахунок букв "р" у слові "полуниця" - чудово ілюструє стійке обмеження. o1 вирішує її правильно після кількох секунд "міркувань", але якщо ви попросите його написати абзац, де друга буква кожного речення складає слово "КОД", він зазнає невдачі. o1-pro, версія за 200 доларів на місяць, вирішує її... після 4 хвилин обробки. DeepSeek R1 та інші останні моделі все ще помиляються в базовому підрахунку. У лютому 2025 року Mistral продовжував відповідати, що в слові "полуниця" лише дві "р".

Трюк, який з'являється, - це гібридний підхід: коли їм потрібно помножити 49858 на 5994949, більш просунуті моделі більше не намагаються "вгадати" результат на основі схожості з обчисленнями, які вони бачили під час тренувань. Натомість вони викликають калькулятор або виконують код на Python - саме так, як це зробила б розумна людина, яка знає свої межі.

Таке "використання інструментів" являє собою зміну парадигми: штучний інтелект не повинен вміти робити все сам, але повинен вміти організовувати правильні інструменти. Моделі міркувань поєднують лінгвістичні здібності для розуміння проблеми, покрокові міркування для планування рішення і делегування спеціалізованим інструментам (калькуляторам, інтерпретаторам Python, базам даних) для точного виконання.

Який урок? Магістри 2025 року є більш корисними в математиці не тому, щовони "навчилися" множити - вони цього ще не зробили - а тому, що деякі з них почали розуміти, коли варто делегувати множення тим, хто дійсно може це зробити. Основна проблема залишається: вони оперують статистичною схожістю, а не алгоритмічним розумінням. Калькулятор вартістю 5 євро залишається незрівнянно надійнішим для точних обчислень.

Ресурси для розвитку бізнесу

9 листопада 2025 року

Системи підтримки прийняття рішень зі штучним інтелектом: зростання ролі радників у корпоративному управлінні

77% компаній використовують ШІ, але лише 1% мають "зрілі" впровадження - проблема не в технології, а в підході: тотальна автоматизація vs інтелектуальна співпраця. Goldman Sachs з АІ-консультантом на 10 000 співробітників генерує +30% ефективності охоплення та +12% перехресних продажів, зберігаючи людські рішення; Kaiser Permanente запобігає 500 смертям на рік, аналізуючи 100 предметів на годину за 12 годин до початку, але залишає діагноз лікарям. Модель Advisor вирішує проблему дефіциту довіри (лише 44% довіряють корпоративному ШІ) завдяки трьом стовпам: зрозумілий ШІ з прозорою логікою, відкалібровані показники довіри, постійний зворотній зв'язок для вдосконалення. Цифри: $22,3 трлн до 2030 року, стратегічні співробітники, які використовують ШІ, побачать 4-кратну рентабельність інвестицій до 2026 року. Практична 3-етапна дорожня карта - навички оцінки та управління, пілотний проект з показниками довіри, поступове масштабування з безперервним навчанням - застосовується у фінансовій сфері (контрольована оцінка ризиків), охороні здоров'я (діагностична підтримка), виробництві (прогнозоване технічне обслуговування). Майбутнє - це не заміна людини штучним інтелектом, а ефективна організація людино-машинної співпраці.
9 листопада 2025 року

Повний посібник з програмного забезпечення для бізнес-аналітики для МСП

60% італійських МСП визнають наявність критичних прогалин у збиранні даних, 29% навіть не мають спеціаліста з цього питання — тоді як італійський ринок бізнес-аналітики зросте з 36,79 млрд доларів до 69,45 млрд доларів до 2034 року (середньорічний темп зростання — 8,56%). Проблема не в технології, а в підході: малі та середні підприємства тонуть у даних, розкиданих між CRM, ERP та Excel-таблицями, не перетворюючи їх на рішення. Це стосується як тих, хто починає з нуля, так і тих, хто хоче оптимізувати роботу. Критерії вибору, що мають значення: зручність використання методом «перетягни та кинь» без місяців навчання, масштабованість, що зростає разом з вами, нативна інтеграція з існуючими системами, повна вартість володіння (впровадження + навчання + обслуговування) проти лише ціни ліцензії. Дорожня карта у 4 етапи — вимірювані цілі SMART (зменшити відтік клієнтів на 15% за 6 місяців), картування чистих джерел даних (garbage in=garbage out), навчання команди культурі даних, пілотний проєкт із циклом постійного зворотного зв'язку. Штучний інтелект змінює все: від описової бізнес-аналітики (що сталося) до розширеної аналітики, яка виявляє приховані закономірності, до прогнозної, яка оцінює майбутній попит, та до прескриптивної, яка пропонує конкретні дії. ELECTE цю потужність ELECTE для малих та середніх підприємств.
9 листопада 2025 року

Система охолодження Google DeepMind AI: як штучний інтелект революціонізує енергоефективність центрів обробки даних

Google DeepMind досягає -40% енергії на охолодження центру обробки даних (але лише -4% загального споживання, оскільки охолодження становить 10% від загального) - точність 99,6% з похибкою 0,4% на PUE 1.1 завдяки 5-рівневому глибокому навчанню, 50 вузлам, 19 вхідним змінним на 184 435 навчальних вибірках (дані за 2 роки). Підтверджено на 3 об'єктах: Сінгапур (перше розгортання у 2016 році), Емшавен, Рада Блаффс (інвестиції у розмірі $5 млрд). PUE флоту Google 1,09 проти середнього по галузі 1,56-1,58. Модель Predictive Control прогнозує температуру/тиск на наступну годину, одночасно керуючи ІТ-навантаженням, погодою, станом обладнання. Гарантована безпека: дворівнева верифікація, оператори завжди можуть відключити ШІ. Критичні обмеження: нульова незалежна перевірка з боку аудиторських фірм/національних лабораторій, для кожного дата-центру потрібна індивідуальна модель (8 років не комерціалізована). Впровадження займає 6-18 місяців і потребує мультидисциплінарної команди (наука про дані, ОВіК, управління об'єктами). Застосовується не лише в дата-центрах: промислові підприємства, лікарні, торгові центри, корпоративні офіси. 2024-2025: Перехід Google на пряме рідинне охолодження для TPU v5p, що вказує на практичні межі оптимізації ШІ.