Информационные технологии, информация и история

M. Thaller

Аннотация


Хотя существует всеобщее согласие о том, что мы живем в «веке информации», отсутствует какое-либо общее определение центрального термина «информация». В разных дисциплинах используются разные концепции, которые обычно отражают эпистемологические допущения этих дисциплин. Удивительно, что внутри информационных технологий дискуссии о правильном определении и характере информации довольно редки.

Одна концепция информации использовалась под различными названиями – Пирамида знаний, Лестница знаний, модель DIKW (data, information, knowledge, wisdom – данные, информация, знания, мудрость) (Knowledge Pyramid, Ladder of Knowledge) – в различных дисциплинах. Короче говоря, предполагается, что информация должна пониматься как часть иерархии понятий, используемых для усвоения и передачи того, что мы наблюдаем. Эта иерархия начинается с данных: например, число 22. Когнитивный агент – человек или система программного обеспечения - может преобразовать это в информацию, интерпретируя ее в общем контексте. Температура 22 ° – это нечто совершенно отличающееся от возраста 22 лет. Тот же самый или другой когнитивный агент может превратить это в знание, позволяющее надлежащим образом реагировать на такую информацию, которая зависит от частного контекста, характерного только для одного агента: достаточно ли информации о том, что комната имеет температуру 22°, чтобы снять пиджак, полностью зависит от индивидуальных особенностей.

Тем не менее технические решения проблем с информацией в подавляющем большинстве основаны на надлежащем способе обработки данных. Это немного удивительно, поскольку признанный отец современных информационных технологий Клод Э. Шеннон в своей основополагающей работе совершенно ясно говорит [Shannon, 1948, р. 379], что его трактовка теории общения ограничивается только аспектом успешного обмена сигналами – данными – между техническими системами, и процесс коммуникации включает в себя различные семантические и концептуальные уровни, однако «эти семантические аспекты коммуникации не имеют отношения к технической проблеме» [Shannon, 1948, р. 379].

Крайне прискорбно, что во время популяризации инженерных решений Шеннонса для коммуникационных технологий, которые, несомненно, являются одними из важнейших предпосылок нашего века информации, эта модерация была отменена, и сложилось впечатление, что прогресс, достигнутый в обработке данных, мог бы быть непосредственно и немедленно отражен прогрессом на уровнях информации и знания.

На теоретическом уровне это означает, что одна из самых главных метафор, определяющих наше понимание информационных технологий, не описывает должным образом то, что делают историки, когда обрабатывают информацию. В повседневных процессах общения мы используем наше понимание современного социального и концептуального мира, собственного современного контекста, чтобы расшифровать сообщения от других людей, разделяющих этот контекст. Для историков современный контекст прошлых веков был утрачен априори. Они интерпретируют данные сообщений, которыми обменивались ранее, чтобы реконструировать контексты предыдущих периодов и обществ.

Можем ли мы применить технологию, скрытые предположения которой нарушают концептуальную основу, на которой мы работаем? Мы, конечно, можем, когда используем это для выполнения задачи, не относящейся к историческим исследованиям: для написания статей, например. Однако анализ исторических источников, по моему мнению, являющийся по-прежнему более важным для исторических исследований, чем плавное представление результатов, пострадает. Однако можно заметить, что действительно широкие и интеллектуально стимулирующие дискуссии о том, что такое информация, были почти совершенно неактуальны для развития современных информационных технологий, что часто приводило к непредвиденным впечатляющим прорывам, в то время как теоретики все еще обсуждали последствия более ранних, столь же неожиданных достижений.

Обсуждение концептуальных требований обработки информации в процессе исторического источнико-ориентированного исследования имеет смысл, следовательно, только если мы можем указать с некоторой точностью, где технология, которой мы располагаем сегодня, препятствует или ограничивает рассуждения в пределах соответствующих дисциплин. И хотя полное техническое решение такой адаптированной технологии является действительно сложной задачей, указать, где именно необходимы исследования и технические разработки, вполне выполнимо. Определены четыре такие области для исследований.

Искажение Вивера

Выше мы утверждали, что во время популяризации работы Шеннона [Weaver, 1949, р. 25] в информатику было введено ложное убеждение, что улучшение обработки данных автоматически улучшит обработку информации и даже знаний. В результате у нас есть формализмы для обработки данных, которые привели к доступности многих повсеместных решений для самых общих уровней программирования данных. Однако решения для технической обработки проблем на двух более высоких концептуальных уровнях обычно сопряжены с особенностями частичных решений, которые часто несовместимы.

Чтобы улучшить эту ситуацию, мы предлагаем исследование в двух направлениях. С одной стороны, реализация предложения Девлина [Devlin, 1991] по математике информации.
С другой стороны, переосмысление предположения о том, что информационные системы обрабатывают статические структуры данных с помощью динамических алгоритмов в направлении решения, в котором структуры появляются только в виде моментальных снимков в состоянии постоянно работающих алгоритмов, основанных на обобщении мной концепции Лангефорса [Langefors, 1973; Thaller, 2009, 345ff.].

Двоичная ошибка

То, что цифровые компьютеры построены на двоичных числах, привело к неправильному пониманию того, что все программирование обязательно должно быть также двоичным. В действительности сегодня практически во всех областях применения информационных технологий существуют решения для применения более совершенных логических моделей, которые в целом называют «нечеткими» в признании оригинальной работы Заде [Zadeh, 1965, 1975, 1978, 1999]. Тем не менее такие приложения опять же склеены только вторично на бинарных стандартных технологиях и создают изумительное множество идиосинкразий.

Поэтому мы выступаем за интеграцию обобщенных решений в высшие языки программирования для трех категорий задач: (1) нечеткость в более узком смысле, т.е. невозможность придать четкое истинное значение утверждению; (2) присущая неточности семантическая концепция, как у «стариков»; (3) элемент, который концептуально является скалярным, но выходит за рамки наших текущих типов данных. Например, цена товара, для которой у нас нет точного значения, но есть минимум и максимум, плюс, возможно, намеки на распределение точек данных между ними.

Тупик Хомского

Обработка текстовых данных компьютерами находилась под сильным влиянием концентрации на синтаксисе, который сыграл важную роль в первые годы вычислений, но в настоящее время является препятствием для лучшей интеграции семантической обработки в обобщенные технические решения, хотя поддержка семантического содержания текстов – это главное требование для исторических исследований.

Альтернативный выход – представление Лакоффа и Джонсона о том, что понимание основано на метафорах [Lakoff, 1980] – становится незамедлительно интуитивным для историка, который пытался просмотреть значение, скрытое за историческими текстами. И идея о том, что возможность создавать ассоциации между различными понятиями, смешивать понятия [Fauconnier, 2003] на самом деле является особенностью, отличающей человеческий разум гораздо более фундаментально, чем «я-язык» (I-Language) и универсальная грамматика (Universal Grammar) [Isac, 2008], очень убедительна для того же историка.

Общая техническая поддержка для таких моделей требует поддержки классов графов в информатике, которые в настоящее время отсутствуют.

Ошибка разметки

Языки разметки не являются центральным предметом информатики. Однако многим гуманитариям они кажутся квинтэссенцией так называемых цифровых гуманитарных наук.
На мой взгляд, у них на текущий момент при использовании разметки в обработке исторических документов имеется два методологических недостатка.

С одной стороны, встроенная разметка скрывает разделение представления источника и интерпретации его содержимого, поскольку обе задачи неразрывно смешаны в современных стандартах кодирования, особенно в TEI. С другой стороны, в настоящее время существует полное разделение встраивания интерпретаций в текст с помощью разметки и применения интерпретаций ко всем другим типам данных на основе внешних аннотаций.

Для решения этих двух проблем требуется техническая поддержка для последовательного решения тупиковой разметки, применимой ко всем типам данных. Кроме того, для поддержки текстов, которые были переданы нам в двух или более частично противоречивых версиях, мы должны заменить инструменты для обработки текста, основывающиеся на предположении, что все тексты являются линейными строками, более общим решением, реализующим их как графы.

Также кратко упоминаются несколько других улучшений современной технологии.

doi 10.17072/2219-3111-2019-3-159-174


Ключевые слова


Information Technology in History; Source Criticism; Information Theory; Fuzzy Sets; Semantic Computing

Полный текст:

PDF (English)

Литература


References

Ackoff, R.L. (1989), “From Data to Wisdom”, Journal of Applied Systems Analysis, vol. 15, pp. 3-9.

Adamo, J.M. (1980), “L.P.L. A fuzzy Programming Language: 1 Syntactic Aspects,” Fuzzy Sets and Systems, vol. 3, pp. 151-179.

Adamo, J.M. (1980), “L.P.L. A fuzzy Programming Language: 2 Semantic Aspects,” Fuzzy Sets and Systems, vol. 3, pp. 261-289.

Ashenhurst, R.L (1996), “Ontological Aspects of Information Modeling”, Minds and Machines, vol. 6, pp. 287-394.

Atanassov, K.T. (1986), “Intuitionistic Fuzzy Sets”, Fuzzy Sets and Systems, vol. 20, pp. 87-96.

Barr, M. & C. Wells (2010), Category Theory for Computing Science, Montréal, Canada.

Baskarada, S. & A. Koronios (2013), “Data, Information, Knowledge, Wisdom (DIKW): A Semiotic Theoretical and Empirical Exploration of the Hierarchy and its Quality Dimension”, Australasian Journal of Information Systems, vol. 18, pp. 5-24.

Blair, B. (1994), “Interview with Lotfi Zadeh”, Azerbaijan International, vol. 2, Winter, pp. 46-47, 50.

Devlin, K. (1991), Logic and Information, Cambridge, UK.

Devlin, K. (2009), “Modeling Real Reasoning”, in: Sommaruga, G. (ed.): Formal Theories of Information, (= Lecture Notes in Computer Science 5363), Berlin-Heidelberg, Germany, pp. 234-252.

Droysen, J.G. (1937), Historik. Vorlesungen über Enzyklopädie und Methodologie der Geschichte, ed. by Rudolf Hübner, München, Deutschland.

Duan, Y. et al. (2017), “Specifying Architecture of Knowledge Graph with Data Graph, Information Graph, Knowledge Graph and Wisdom Graph”, presented at SERA 2017, available at: doi.org/10.1109/SERA.2017.7965747 (accessed 10.07.2019).

Fauconnier, G. & M. Turner (2003), The Way We Think. Conceptual Blending and the Mind’s Hidden Complexities, New York, USA.

Favre-Bull, B. (2001), Information und Zusammenhang. Informationsfluß in Prozessen der Wahrnehmung, des Denkens und der Kommunikation, Heidelberg, Deutschland.

Floridi, L. (2011), The Philosophy of Information, Oxford, UK.

Frické, M. (2009), “The Knowledge Pyramid: A Critique of the DIKW Hierarchy”, Journal of Information Science, vol. 35, pp. 131-142.

Harris, R. (1998), Introduction to Integrational Linguistics, Oxford, UK.

Herrera, F. et al. (eds.) (2014), “Special Issue on Hesitant Fuzzy Sets”, International Journal of Intelligent Systems, vol. 29, pp. 493-595.

Isac, D. & C. Reiss (2008) I-Language, Oxford University Press, Oxford, UK, 392 p.

Jiang, Y. et al. (2009), “Reasoning with Expressive Fuzzy Rough Description Logics”, Fuzzy Sets and Systems, vol. 160, pp. 3403-3424.

Jifa, G. & Z. Lingling (2014), “Data, DIKW, Big Data and Data Science”, Procedia Computer Science, vol. 31, pp. 814-821.

Kettinger, W.J. & Y. Li (2010), “The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge”, European Journal of Information Systems, vol. 19, pp. 409-421.

Lakoff, G. & M. Johnson (1980), Metaphors We Live By, Chicago, USA, with a substantial afterword reprinted 2003.

Liu, S. & Y. Lin (2006), Grey Information. Theory and Practical Applications, London, UK.

Liu, S. & Y. Lin (2011), Grey Systems. Theory and Practical Applications, London, UK.

Langefors, B. (1973), Theoretical Analysis of Information Systems, Göteborg, Germany.

Nanda, S. & S. Majumdar (1992), “Fuzzy Rough Sets”, Fuzzy Sets and Systems, vol. 45, pp. 157-160.

Nielsen, M.A. & I.L. Chuang (2000), Quantum Computation and Quantum Information, Cambridge, UK.

Pawlak, Z. (1982), “Rough Sets”, International Journal of Parallel Programming, vol. 11,

pp. 341-356.

Pawlak, Z. (1985), “Rough Sets and Fuzzy Sets”, Fuzzy Sets and Systems, vol. 17, pp. 99-102.

Rowley, J. (2007), “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, vol. 33, pp. 163-180.

Saab, D.J. & U.V. Riss (2011), “Information as Ontologization”, Journal of the American Society for Information Science and Technology, vol. 62, pp. 2236-2246.

Schmidt, D. & R. Colomb (2009), “A Data Structure for Representing Multi-Version Texts Online”, International Journal of Human-Computer Studies, vol. 67, pp. 497-514.

Shafer, G. (1976), A Mathematical Theory of Evidence, Princeton University Press, Princeton, USA, 314 p.

Shannon, C.E. (1948), “A Mathematical Theory of Communication”, Bell System Technical Journal, vol. 27, pp. 379–423, 623–656.

Sommaruga, G. (2009), “One or Many Concepts of Information?”, in Sommaruga, G. (ed.), Formal Theories of Information, (= Lecture Notes in Computer Science 5363), Berlin-Heidelberg, Deutschland, pp. 253-267.

Termini, T. (2012), “On some ‘Family Resemblances’ of Fuzzy Set Theory and Human Sciences”, in: Seising, R. & V. Sanz (eds.), Soft Computing in Humanities and Social Sciences (= Studies in Fuzziness and Soft Computing 273), Berlin-Heidelberg, Deutschland, pp. 39-54.

Thaller, M. (1993): “Historical Information Science: Is there such a Thing? New Comments on an Old Idea.”, in Orlandi, T., Seminario discipline umanistiche e informatica. Il problema dell' integrazione, Rome, Italy, pp. 51-86. Reprinted under the same title in: Historical Social Research, Suppl. 29 (2017), pp. 260-286, available at: doi.org/10.12759/hsr.suppl.29.2017.260-286 (accessed 10.07.2019).

Thaller, M. (2017), “The Cologne Information Model: Representing Information Persistently”, in Thaller, M. (ed.), The eXtensible Characterisation Languages – XCL, Hamburg, Deutschland, pp. 223-39. Reprinted under the same title in: Historical Social Research Supplement 29, pp. 344-356, available at: doi.org/10.12759/hsr.suppl.29.2017. 344-356 (accessed 10.07.2019).

Torra, V. (2010), “Hesitant Fuzzy Sets”, International Journal of Intelligent Systems, vol. 25, pp. 529-539.

Weaver, W. (1949), “Introductory Note on the General Setting of the Analytical Communication Studies”, in Shannon, C.E. & W. Weaver, The Mathematical Theory of Communication, The University of Illinois Press, Urbana and Chicago, USA.

Zadeh, L.A. (1965), “Fuzzy Sets”, Information and Control, 8, pp. 338-353.

Zadeh, L.A. (1975), “The Concept of a Linguistic Variable and its Application to Approximate Reasoning”, I – III, Information Sciences, vol. 8, pp. 199-249, 301-357 and vol. 9, pp. 43-80.

Zadeh, L.A. (1978), “Fuzzy Sets as a Basis for a Theory of Possibility”, Fuzzy Sets and Systems, vol.1, pp. 3-28.

Zadeh, L.A. & J. Kacprzyk (eds.) (1999), Computing with Words in Information / Intelligent Systems I and II (= Studies in Fuzziness and Soft Computing, vols. 33 and 34).

Zadeh, L.A. (2005), “Toward a Generalized Theory of Uncertainty (GTU) – an outline”, Information Sciences, 172, pp. 1-40.


Ссылки

  • На текущий момент ссылки отсутствуют.


 

Вестник Пермского университета. История на elibrary