Relevance, criticality and learning |
Abstract: Learning is a distinctive feature of intelligent behaviour. High-throughput experimental data and Big Data promises to open new windows on complex systems such as cells, the brain or our societies. Yet, the puzzling success of Artificial Intelligence and Machine Learning shows that we still have a poor conceptual understanding of learning. These applications push statistical inference in uncharted territories where data is high-dimensional and scarce, and prior information on "true" models is scant if not totally absent. Here we review recent progress on understanding learning, based on the notion of relevance. The relevance quantifies the amount of information that a dataset or the internal representation of a learning machine contains on the generative model of the data. This allows us to define maximally informative samples, on one hand, and optimal learning machines on the other. These are ideal limits of samples and of machines, that contain the maximal amount of information about the unknown generative process, at a given resolution (or level of compression). Both ideal limits exhibit critical features: Maximally informative samples are characterised by a power-law frequency distribution (statistical criticality) and optimal learning machines by an anomalously large susceptibility. The trade-off between resolution (i.e. compression) and relevance distinguishes the regime of nosy representations from that of lossy compression. These are separated by a special point characterised by Zipf's law statistics. This identifies samples obeying Zipf's law as the most compressed loss-less maximally informative datasets. Criticality in optimal learning machines manifests in an exponential degeneracy of energy levels, that leads to unusual thermodynamic properties. This theoretical framework is corroborated by empirical analysis showing that the concept of relevance can be useful to identify relevant variables in high-dimensional inference and that widely used machine learning architectures approach reasonably well the ideal limit of optimal learning machines, within the limits of the data with which they are trained. Matteo Marsili (ICTP, Trieste, Italy) |
Релевантность, критичность и обучение |
Абстракт: Обучение - отличительная черта разумного поведения. Высокопроизводительные экспериментальные данные и большие данные обещают открыть новые окна в сложных системах, таких как клетки, мозг или наше общество. Тем не менее, успех искусственного интеллекта и машинного обучения показывает, что у нас по-прежнему плохое понимание концепции обучения. Эти приложения подталкивают к статистическим выводам на неизведанных территориях, где данные являются многомерными и скудными, а предварительная информация об "истинных" моделях скудна, если не полностью отсутствует. В данном докладе мы рассматриваем недавний прогресс в понимании обучения, основанный на понятии релевантности. Релевантность определяет количество информации, которую набор данных или внутреннее представление обучающейся машины содержит в генеративной модели данных. Это позволяет нам определять максимально информативные образцы, с одной стороны, и оптимальные обучающие машины, с другой. Это идеальные ограничения образцов и машин, которые содержат максимальное количество информации о неизвестном процессе генерации при заданном разрешении (или уровне сжатия). Оба идеальных предела обладают критическими характеристиками: максимально информативные образцы характеризуются степенным распределением частот (статистическая критичность), а оптимальные обучающие машины - аномально большой восприимчивостью. Компромис между разрешением (то есть сжатием) и релевантностью отличает режим интересных представлений от режима сжатия с потерями. Они разделены специальной точкой, характеризуемой статистикой закона Зипфа, согласно которому, образцы, подчиняющиеся закону Зипфа, определяются как наиболее сжатые и максимально информативные наборы данных без потерь. Критичность оптимальных обучающих машин проявляется в экспоненциальном вырождении уровней энергии, что приводит к необычным термодинамическим свойствам. Эта теоретическая основа подтверждается эмпирическим анализом, показывающим, что концепция релевантности может быть полезна для идентификации релевантных переменных в многомерном выводе и что широко используемые архитектуры машинного обучения достаточно хорошо подходят к идеальному пределу оптимальных обучающихся машин в пределах данных. с которым они обучаются. Bio: Prof. Matteo Marsili received his Ph.D in Physics at SISSA, Triest, Italy in 1994. From June of 2002 he is a Research scientist in the Condensed Matter and Statistical Physics sector of the Abdus Salam ICTP, Trieste. His research interests: Statistical physics, non-equilibrium critical phenomena, disordered systems, probability Interests theory and stochastic processes, complex networks. Interdisciplinary applications of statistical physics, including modeling socio-economic phenomena and financial markets, game theory, and biological networks. Инфо: Профессор Маттео Марсили получил PhD степень по физике в Международной школе передовых исследований (SISSA), Триест Италия в 1994 году. С июня 2002 г. он является научным сотрудником отделения Статистической физики и физики конденсированных сред Международного центра теоретической физики им. Абдуса Салама (ICTP), Италия. Область научных интересов: Статистическая физика, неравновесные критические явления, неупорядоченные системы, теория вероятностей и случайные процессы, сложные сети. Междисциплинарные приложения статистической физики, включая моделирование социально-экономических явлений и финансовых рынков, теории игр и биологические сети. |