Коэффициент сходства

Коэффициент сходства

Коэффициент сходства (также мера сходства, индекс сходства) — безразмерный показатель, применяемый в биологии для количественного определения степени сходства биологических объектов. Также известен под названиями: мера ассоциации, мера подобия и др. более редкие названия.
В более широком смысле говорят о мерах близости к которым относятся: меры разнообразия, меры концентрации (однородности), меры включения, меры сходства, меры различия (в том числе расстояния), меры совместимости событий, меры несовместимости событий, меры взаимозависимости, меры взаимонезависимости. Теория мер близости находится в стадии становления и потому существует множество различных представлений о формализации отношений близости.
Меры близости широко применяются в биологии, где наиболее часто сравниваются участки (районы, отдельные фитоценозы, зооценозы и т.п.). Также применяются в географии, социологии, распознавании образов, поисковых системах, сравнительной лингвистике, биоинформатике, хемоинформатике и др.
Большинство коэффициентов нормированы и находятся в диапазоне от 0 (сходство отстутствует) до 1 (полное сходство). Сходство и различие взаимодополняют друг друга (математически это можно выразить так: Сходство = 1 - Различие).

Коэффициенты сходства можно условно разделить на три группы в зависимости от того, какое число объектов рассматривается:

  • унарные - рассматривается один объект. В эту группу входят меры разнообразия, меры концентрации.
  • бинарные - рассматривается два объекта. Это наиболее известная группа коэффициентов.
  • n-арные (многоместные) - рассматривается n объектов. Эта группа наименее известна.

Содержание

Унарные коэффициенты

При изучении биологических объектов широко используются меры изменчивости, как отдельных признаков, так и частот распределения случайных величин. В простейшем случае инвентаризационное (в пределах изучаемой биосистемы) разнообразие можно оценить видовым богатством, или числом видов.

Наиболее часто используются меры разнообразия[1] (коэффициент вариации, индексы параметрического семейства Реньи, включая индекс Шеннона; индексы семейства Хилла; индексы Маргалефа, Глизона и др.). Реже используются дополняющие их меры концентрации (например, семейство мер Колмогорова, мера диссонанса Розенберга).

Бинарные коэффициенты

Это наиболее используемые в биологии и географии коэффициенты[2]. Самый первый коэффициент сходства был предложен П. Жаккаром (Jaccard) в 1901 г.[3] :  K_J = \frac{c}{a+b-c} , где а — количество видов на первой пробной площадке, b — количество видов на второй пробной площадке, с — количество видов, общих для 1-ой и 2-ой площадок. Впоследствии в самых различных областях науки предлагались различные коэффициенты (меры, индексы) сходства. Наибольшее распространение получили (обозначения те же):

Известна альтернативная система обозначений для таблицы сопряжённости  2 \times 2 от Р.Р.Сокала (Sokal) и П.Снита (Sneath)[10][11]:

Присутствие вида на 1-ом участке Отсутствие вида на 1-ом участке
Присутствие вида на 2-ом участке a b
Отсутствие вида на 2-ом участке c d

где а — количество видов, встречаемых на обеих площадках; b - количество видов встреченных на первой пробной площадке, но без учёта встречаемости общих видов; с — количество видов встреченных на второй пробной площадке, но без учёта встречаемости общих видов. Эта таблица создает большую путаницу. Её часто путают с похожей статистической таблицей сопряженности  2 \times 2 ; обозначения таблицы Сокала-Снита путают с классическими обозначениями (см. выше); почти всегда не учитывают того факта, что таблица рассматривает только вероятности.
В процессе математической формализации объектов и связей между ними возникла универсальная теоретико-множественная запись для коэффициентов сходства. Впервые такого рода запись появляется в работах А.С.Константинова[12], М.Левандовского и Д.Винтер[13]. Так коэффициент сходства Жаккара может быть записан следующим образом:

 K_J = \frac{n(A \cap B)}{n(A) + n(B) - n(A \cap B)} или  K_J = \frac{n(A \cap B)}{n(A \cup B)}.


Наиболее простым коэффициентом сходства является мера абсолютного сходства, которая по сути является числом общих признаков двух сравнимаемых объектов:  n(A \cap B) [14].
В 1973 году Б.И. Сёмкиным была предложена общая формула на основе формулы среднего Колмогорова, объединяющая большую часть известных коэффициентов сходства в непрерывный континуум мер[15][16]:

 K_{\tau,\eta} (A,B) =  \left ( \frac{K_\tau^\eta (A;B) + K_\tau^\eta (B;A)}{2} \right )^\frac{1}{\eta} ,


где  K_\tau, (A;B) =  \frac{K_0 (A;B)}{1 + \tau - \tau K_0 (A;B)} ;  K_\tau, (B;A) =  \frac{K_0 (B;A)}{1 + \tau - \tau K_0 (B;A)} ; K_0 (A;B) = \frac{conv(A,B)}{S(B)}; K_0 (B;A) = \frac{conv(A,B)}{S(A)};  -1 < \tau < \mathcal {1} ;  - \mathcal {1} < \eta < + \mathcal {1} . Например, значения  [ \tau , \eta ] для вышеприведённых коэффициентов имеют следующий вид: [1,-1] (коэффициент Жаккара); [0,-1] (коэффициент Серенсена); [0,1] (коэффициент Кульчинского); [0,0] (коэффициент Охаи); [0,  + \mathcal {1} ] (коэффициент Шимкевича-Симпсона); [0, - \mathcal {1} ] (коэффициент Браун-Бланке). Обобщающая формула позволяет определить классы эквивалентных и неэквивалентных коэффициентов[17], а также предотвратить создание новых дублирующих коэффициентов.

Специфическим типом коэффициентов сходства являются меры включения. Это несимметричные меры ( K_\tau^\eta (A;B) и  K_\tau^\eta (B;A) ), которые показывают степень сходства (включение) одного объекта относительно другого. Более привычные (симметричные) коэффициенты близости можно получить путём осреднения двух взаимодополняющих несимметричных мер включения, т.е. каждой симметричной мере сходства соответствуют две определённые несимметричные меры сходства. Например, для меры Сёренсена это  K(A;B) = \frac{n(A \cap B)}{n(A)} и  K(B;A) = \frac{n(A \cap B)}{n(B)} ), а для меры Жаккара это  K(A;B) = \frac{n(A \cap B)}{2n(A) - n(A \cap B)} и  K(B;A) = \frac{n(A \cap B)}{2n(B) - n(A \cap B)} . В общем, две несимметричные меры включения лучше оценивают сходство объектов чем одна осреднённая симметричная мера сходства.


Спорным и неоднозначным является вопрос о сравнении объектов по весовым показателям. В экологии это показатели учитывающие обилие. Наиболее последовательными схемами формализации таких типов являются: схема Б.И.Сёмкина на основе дескриптивных множеств и схема А.Чао (Chao) с основанными на обилии индексами (abundance-based indices)[18]. Также в зарубежной литературе устоялось представление индексах на основе инцидентности (incidence-based index), т.е. индексах для булевых данных типа присутствие/отсутствие (presence/absence) признака. По сути, и те и другие могут быть описаны как частные случаи дескриптивных множеств.
Дискуссионными остаются: сравнение случайных событий (например, встречаемость) и информационных показателей. В схеме формализации отношений близости Б.И.Сёмкина предлагается выделять ряд аналитических интерпретаций для различных отношений близости: множественная, дескриптивная, вероятностная, информационная.
Формально принадлежность к мерам сходства определяется системой аксиом (здесь E - произвольное множество):
1.  K (A, B) \geqslant 0;  \forall A, B \mathcal {2} E (неотрицательность);

2.  K (A, B) = K (B, A);  \forall A, B \mathcal {2} E (симметричность);

3.  K (A, B) \geqslant K (A, A);  \forall A, B \mathcal {2} E ("целое больше части");

4.  K (A, B) \leqslant K (A, A) + K (B, B);  \forall A, B \mathcal {2} E (субаддитивность).

Системы аксиом для мер сходства предлагали: А.Реньи[19], Ю.А.Воронин[20][21], А.Тверски[22], А.А.Викентьев, Г.С.Лбов[23], Г.В.Раушенбах[24], Б.И.Сёмкин[25][26] и др.

Как правило, совокупность мер близости представляют в виде матриц типа "объект-объект". Это, например, матрицы сходства, матрицы расстояний (в широком смысле - различия), матрицы совместных вероятностей, матрицы информационных функций. Большинство из них могут быть построены на основе: абсолютных или относительных мер, а они в свою очередь могут быть симметричными или несимметричными (последние часто называются мерами включения).

Многоместные коэффициенты

Такого рода коэффициенты используются для сравнения серии объектов. К ним относятся: среднее сходство Алёхина, индекс биотической дисперсии Коха, коэффициент рассеяния (дисперсности) Шенникова, мера бета-разнообразия Уиттекера, мера гомотонности и двойственная ей мера гетеротонности Миркина-Розенберга, коэффициент сходства серии описаний Сёмкина. В зарубежной литературе меры этого типа встречаются под названиями: многомерные коэффициенты, n-мерные коэфициенты, multiple-site similarity measure, multidimensional coefficient, multiple-community measure[27].[28][29]. Наиболее известный коэффициент был предложен Л.Кохом[30]:

 K (X_1,..., X_n ) = \frac{T - S}{(n - 1) S} ,

где  T = \sum^{n}_{i=1} {n (X_i)} , т.е. сумма числа признаков каждого из объектов;  S = n (X_1 \cup ... \cup X_n) , т.е. общее число признаков;  X_1 , ..., X_n - совокупность n множеств (объектов).

Программное обеспечение для расчёта мер

Как правило, расчёт мер близости производится в модуле кластерного анализа программы. Наиболее часто используют: Statistica, но в соответствующем модуле меры сходства не представлены совсем, только расстояния. В SPSS(PASW Statistics) предлагается расчёт ряда мер сходства (меры Охаи, Жаккара, Сокала-Снита, Кульчинского, симметричная Дайса). Малых программ для расчёта мер близости и последущего графического представления зависимостей существует огромное количество[31][32]. Меры сходства же представлены крайне редко и в основном в специализированных программах для биологов[33]: Graphs, NTSYS, BIODIV, PAST, причём даже там их крайне мало (обычно только мера Жаккара и иногда мера Сёренсена). Также можно отметить TurboVEG и IBIS[34], в основе которых лежит база данных с модулями обработки, причём в программе IBIS реализовано наибольшее количество мер близости, используемых в настоящее время в биологии, географии и прочих областях.

См. также

Источники и примечания

  1. Magurran A.E. Measuring biological diversity. – Oxford, UK.: Blackwell Publishing, 2004. – 256 p.
  2. Песенко Ю.А. Принципы и методы количественного анализа в фаунистических исследованиях. – М.: Наука, 1982. – 287 с.
  3. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241-272.
  4. Sörensen T. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content // Kongelige Danske Videnskabernes Selskab. Biol. krifter. Bd V. № 4. 1948. P. 1-34.
  5. Kulczinsky S. Zespoly róslin w Pienach // Bull. intern. acad. polon. sci. lett. Cl. sci. math. natur. Ser. B. 1927. S. 2. P. 57-203.
  6. Ochiai A. Zoogeographical studies on the soleoid fishes found Japan and its neighboring regions. II // Bull. Jap. Soc. sci. Fish. 1957. V. 22. № 9. P. 526—530. (Аннотация на англ. Основной текст статьи на яп.)
  7. Szymkiewicz D. Une contribution statistique a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. № 3. P. 249-265.
  8. Simpson G.G. Holarctic mammalian faunas and continental relationship during the Cenozoic // Bull. Geol. Sci. America. 1947. V. 58. P. 613-688.
  9. Braun-Blanquet J. Pflanzensoziologie Grundzüge der Vegetationskunde. – Berlin: Verlaq von Julius springer, 1928. – 330 s.
  10. Sokal R.R., Sneath P.H.A. Principles of numerical taxonomy. – San Francisco: London: Freeman, 1963. – 359 p.
  11. Sneath P.H.A., Sokal R.R. Numerical taxonomy: The principles and practices of numerical classification. – San-Francisco: Freeman, 1973. – 573 p.
  12. Константинов А.С. Использование теории множеств в биогеографическом и экологическом анализе // Усп. соврем. биол. 1969. Т. 67. вып. 1. С 99-108.
  13. Levandowsky M., Winter D. Distance between sets // Nature. 1971. V.234. №5323. P. 34-35.
  14. Ковалевская В.Б., Погожев И.Б., Погожева (Кусургашева) А.П. Количественные методы оценки степени близости памятников по процентному содержанию массового материала // Советская археология. 1970. № 3. С. 26-39.
  15. Сёмкин Б.И. Дескриптивные множества и их приложения // Исследование систем. Т. 1. Анализ сложных систем. Владивосток: ДВНЦ АН СССР, 1973. С. 83-94.
  16. Сёмкин Б.И. Теоретико-графовые методы в сравнительной флористике // В кн.: Теоретические и методологические проблемы сравнительной флористики: Материалы 2-го рабочего совещания по сравнительной флористике. – Неринга: 1983. – С. 149-163.
  17. Сёмкин Б.И., Двойченков В.И. Об эквивалентности мер сходства и различия // Исследование систем. Т. 1. Анализ сложных систем. Владивосток: ДВНЦ АН СССР, 1973. С 95-104.
  18. Chao A, Chazdon RL, Colwell RK, Shen TJ. Abundance-based similarity indices and their estimation when there are unseen species in samples // Biometrics. 2006. №62. P.361-371.
  19. Rényi A. On measures of dependence // Acta Math. Acad. Scien. Hung. 1959. V.10. № 3-4. P. 441-451.
  20. Воронин Ю.А. Введение мер сходства и связи для решения геолого-геофизических задач // Докл. АН СССР. 1971. Т. 139. №5. С. 64-70.
  21. Воронин Ю.А. Начала теории сходства. – Новосибирск: Наука. Сиб. отд-ние, 1991. – 128 с.
  22. Tversky A. Features of similarity // Psychological Review. 1977. V.84. №4. P. 327-352.
  23. Викентьев А.А., Лбов Г.С. О метризациях булевой алгебры предложений и информативности высказываний экспертов // Докл. АН. Информатика. 1998. Т. 361. №2. С. 174-176.
  24. Раушенбах Г.В. Меры близости и сходства // Анализ нечисловой информации о социологических исследованиях. М.: Наука, 1985. С. 169-203.
  25. Сёмкин Б.И., Горшков М.В. Система аксиом симметричных функций двух переменных и меры, измеряющие отношения сходства различия, совместимости и зависимости для компонентов биоразнообразия // Вестник ТГЭУ. 2008. №4. С. 31-46.
  26. Сёмкин Б.И., Горшков М.В. Аксиоматическое введение мер сходства, различия, совместимости и зависимости для компонентов биоразнообразия в многомерном случае // Вестник КрасГАУ. 2009. №12. С. 18-24.
  27. Chao A., Hwang W.H., Chen Y.C., Kuo C.Y. Estimating the number of shared species in two communities // Statistica Sinica. 2000. №10. P. 227-246.
  28. Baselga A., Jiménez-Valverde A., Niccolini G. A multiple-site similarity measure independent of richness // Biol. Lett. 2007. № 3. P. 642-645.
  29. Diserud O.H., Ødegaard F. A multiple-site similarity measure // Biol. Lett. 2007. № 3. P. 20-22.
  30. Koch L.F. Index of biotal dispersity // Ecology. 1957. V. 38. № 1. P. 145-148.
  31. http://www.biometrica.tomsk.ru/list/other.htm Статистические ресурсы Интернета
  32. http://evolution.genetics.washington.edu Программы для филогенетических расчётов на Интернет-портале Вашингтонского университета
  33. Новаковский А.Б. Обзор программных средств, используемых для анализа геоботанических данных // Растительность России. 2006. №9. С. 86-95.
  34. Зверев А.А. Информационные технологии в исследованиях растительного покрова. - Томск: ТМЛ-Пресс, 2007. -304 с.

Wikimedia Foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Полезное


Смотреть что такое "Коэффициент сходства" в других словарях:

  • Коэффициент сходства — или сопряженности показатель количества общих признаков в сравниваемых биоценозах и др. таксонах. Чаще всего определяется коэффициентом флористического сходства. Предложено очень много формул для его вычисления. Особенно известны формула P.… …   Экологический словарь

  • коэффициент сходства — Доля аллелей у двух сравниваемых организмов, имеющих общее происхождение (от одного предка). [Арефьев В.А., Лисовенко Л.А. Англо русский толковый словарь генетических терминов 1995 407с.] Тематики генетика EN coefficient of relationship …   Справочник технического переводчика

  • коэффициент сходства — coefficient of relationship коэффициент сходства. Доля аллелей у двух сравниваемых организмов, имеющих общее происхождение (от одного предка). (Источник: «Англо русский толковый словарь генетических терминов». Арефьев В.А., Лисовенко Л.А., Москва …   Молекулярная биология и генетика. Толковый словарь.

  • КОЭФФИЦИЕНТ СХОДСТВА БИОЦЕНОЗОВ — показатель флористического и фаунистического сходства, выявленный при анализе списков видов сообществ: К = =[2(а+в+с+...+n)]/A1+A2+В1+В2+С1+С2+...+N1+N2),гдеA1, A2, В1, B2, C1, С2 количество особей того или иного вида в первом и втором ценозах; а …   Экологический словарь

  • Коэффициент Жаккара — Мера Жаккара (коэффициент флористической общности, фр. coefficient de communaute, нем. Gemlinschaftskoefficient) бинарная мера сходства, предложенная Полем Жаккаром в 1901 году.[1] : , где а количество видов на первой пробной… …   Википедия

  • КОЭФФИЦИЕНТ ФЛОРИСТИЧЕСКОГО СХОДСТВА — см. в ст. Индекс Жаккара. Экологический словарь, 2001 Коэффициент флористического сходства см. в ст. Индекс Жаккара. EdwART …   Экологический словарь

  • коэффициент подобия — степень сходства — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом Синонимы степень сходства EN similarity measure …   Справочник технического переводчика

  • Коэффициент Браун-Бланке — Мера Браун Бланке бинарная мера сходства, предложенная Жозиасом Браун Бланке в 1928 году.[1] Меру часто путают с несимметричными коэффициентами сходства. Для конечных множеств (множественная интерпретация) имеет следующий вид: . Данный… …   Википедия

  • Коэффициент Симпсона — Мера Шимкевича Симпсона бинарная мера сходства, предложенная независимо Дезидерием Шимкевичем как «показатель родового сходства» в 1934 году[1] и Джорджем Симпсоном в 1947 году.[2] Меру часто путают с несимметричными коэффициентами сходства.… …   Википедия

  • Коэффициент Сёренсена — Мера Сёренсена бинарная мера сходства, предложенная Торвальдом Сёренсеном в 1948 году.[1] Фамилия автора коэффициента в литературе переводится самыми различными способами: Съёренсен, Съеренсен, Соренсен, Серенсен. Вариант Сёренсен приводится в… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»