Арсентьев Андрей

191
Рейтинг

brooho
Андрей Арсентьев



  •   Регистрация: 20.06.2017 (6 лет назад)

  •   Был(а) на сайте: 25.04.2024

Подписчики 8

Группы

Профессиональный разработчик

Рейтинг 191

Сходство Джаро - Винклера. Нечеткое сравнение строк

Статья Программист Платформа 1С v8.3 Россия Бесплатно (free) Нет файла Универсальные функции

В области информатики и статистики сходство Джаро - Винклера представляет собой меру схожести строк для измерения расстояния между двумя последовательностями символов. В публикации рассмотрены некоторые особенности алгоритма, и представлен вариант его реализации на языке 1С.

25.12.2019    13150    brooho    22       

175

Функция - Формат государственного номера автомобиля

Статья Программист Платформа 1С v8.3 Автомобили, автосервисы Россия Бесплатно (free) Нет файла Универсальные функции

Возникла необходимость в приведении к единому формату хранящихся, и вводимых вновь, автомобильных Регистрационных знаков - Гос.номер.

23.12.2019    9992    brooho    6       

16

Комментарии

DevСходство Джаро - Винклера. Нечеткое сравнение строк#15 05.03.20 5:27
(14)
Цитата
мне кажется, что на каждый столбец надо учитывать либо совпадение, либо транспозицию, с приоритетом совпадения...
- Вы абсолютно правы. Я того-же мнения. И не смотря на действительное не четкое описание правил транспозиции, этот вывод напрашивается сам собой. Транспозиция, она же перестановка, может быть только одна для одного символа. Либо совпадение по позиции, либо перестановка. По злосчастному столбцу 9 признаю ошибку, которую упорно не хотел замечать (поправил, кстати). Та единица на картинке должна была быть красная (неверно посчитанная транспозиция) и само-собою не должна влиять на величину m и результат. Приведенная функция её естественно и не учитывает. Как это не смешно, но это тоже ошибка исключительно оформительская. Естественно результат в примере 3 изменился в меньшую сторону, но утверждение, что результат конечно же зависит от порядка сравнения строк, длинной с короткой и наоборот, остается верным. Большое спасибо за указанную неточность.

Цитата
например, если взять строки АААААААА и ААА, то будет 3 совпадения и море транспозиций
- функция выдаст 3 совпадения и 0 транспозиций. Результат будет одинаков для любого варианта сравнения. Хотя сравнивать разной длины последовательности из одинаковых символов на мой взгляд не совсем корректно. Всё-таки алгоритм направлен именно на сравнение слов. Ведь (повторюсь) расстояние Джаро между двумя словами — это минимальное число одно— символьных преобразований, которое необходимо для того, чтобы изменить одно слово в другое.

Цитата
почему холивара? скорее из области производительности...
- Возможно и так. По поводу производительности универсальных коллекций 1С есть замечательный материал с подробными выкладками - Эффективная обработка данных в оперативной памяти за счет использования коллекции "соответствие"
Замеров производительности функции не осуществлялось, ибо написана была под конкретный случай для обработки ограниченного объёма информации. Поэтому быстродействие не являлось ключевым фактором.
DevСходство Джаро - Винклера. Нечеткое сравнение строк#13 04.03.20 10:50
(12) Спасибо за внимательное прочтение и замечания. Постараюсь ответить по-порядку.
1. В примере 2 длина префикса L действительно равна 4-м, а не 3-м, как было на картинке. Поправил вместе с результатом.
2. В примере 3 на правой картинке обозначение одной из транспозиций символа "А" действительно находилась не на своем месте (в столбце символа "В". Поправил. Однако эта перестановка не меняет величину m и соответственно не влияет на результат. Отсюда следует, что утверждение ".. посчитано не правильно..." основано на предположении, а не практической проверке.
3. "В примере 3 слева условие dj >= bt не применялось, хотя в функции оно есть..." - верно. Добавил соответствующее примечание перед примером.
Слава Богу данные ошибки не системные, а результат нудной оформительской работы. Надеюсь на понимание.
4. "Использование в функции Соответствия наверное перебор," - это уже из области холивара:) - "без него можно было бы обойтись..." - с удовольствием добавлю в публикацию второй, более изящный вариант реализации алгоритма, если порадуете.

А вот ошибку в функции основного алгоритма не заметили:) В первом условии, где "в лоб" сравниваются оба слова, функция всегда возвращала - 1, вне зависимости от значения параметра "Процент". Поправил.
Было:
Если s1 = s2 Тогда
Возврат 1;
КонецЕсли;

Стало:
Если s1 = s2 Тогда
Возврат ?(Процент,100,1);
КонецЕсли;
DevСходство Джаро - Винклера. Нечеткое сравнение строк#0 25.12.19 19:18
В области информатики и статистики сходство Джаро - Винклера представляет собой меру схожести строк для измерения расстояния между двумя последовательностями символов. В публикации рассмотрены некоторые особенности алгоритма, и представлен вариант его реализации на языке 1С.
DevФункция - Формат государственного номера автомобиля#4 24.12.19 10:59
(3) Спасибо, поправил.
Не за что:)
DevФункция - Формат государственного номера автомобиля#0 23.12.19 18:16
Возникла необходимость в приведении к единому формату хранящихся, и вводимых вновь, автомобильных Регистрационных знаков - Гос.номер.