normalize_spot_color

Приложение для транслитерации и нормализации имен сепараций в PDF-файлах.

• Вступление
• Первые варианты и почему я отказался от Enfocus Pitstop
• Иcпользование как консольного приложения Java
• Иcпользование в Enfocus Switch
• Код normalize_spot_color-1.1.jar (Java)
• Код NormalizeSpotPDFbox.sscript (Enfocus Switch)

Вступление

Одна из распространенных проблем при работе с PDF-файлами — это нестандартизированность имен сепараций, особенно в файлах, полученных от сторонних заказчиков.

Опытные дизайнеры используют библиотеки Pantone, но менее опытные могут создавать спот-цвета вручную, что приводит к ошибкам, таким как использование кириллицы или неправильное написание. Это вызывает проблемы при обработке файлов на рипе и требует ручного вмешательства.

Первые варианты (или почему я отказался от Enfocus Pitstop)

Первый (рабочий) прототип

Первый шаг — создание action в Pitstop с использованием regex и метода Rename spot color. Этот метод частично рабочий, но не позволяет транслитерировать символы и гарантировать обработку всех сепараций за один прогон.

Если кому интересно, я использовал такой regex (при необходимости, файл обрабатывался до 10 раз в цикле):
Это: (?!Cyan$|Magenta$|Yellow$|Black$|None$|none$|All$|all$|ProofColor$)^.*?((?:[A-Za-z0-9()\- #_]+.*?)+)[^A-Za-z0-9()\- #_]*((?:[A-Za-z0-9()\- #_]+.*?)+)*$
Менялось на: $1_$2
После такой обработки не входящие в список "A-Za-z0-9()- #" символы просто заменялись на "_"

Метод "топорный". Работает. Но некрасиво. И не универсально. Эффективность данного метода я бы оценил в 80%, потому, что иногда бывают очень креативные дизайнеры, любящие необычные названия для своих цветов. И мне, человеку техническому, тяжело заранее предугадать их полет фантазии, а данный подход как раз и требует некоего предугадывания… А еще данный подход не позволяет реализовать нормализацию имен.

Второй (нерабочий) прототип

Следующий вариант предполагал использование Switch для анализа имен сепараций и передачи их в Pitstop. Однако метод Rename spot color в Pitstop не может получать имена сепараций из переменных, что делает этот подход нерабочим.

UPDATE
Начиная с Pitstop 24.11 появилась возможность передавать имена исходной и конечной сепараций в переменных в методе Rename spot color. Фактически это то, что надо. Но, к сожалению, владельцам взломанного Switch данная версия Pitstop Server пока недоступна.

Для переименования надо было бы использовать метод Remap spot color, он позволяет передать имена исходной и конечной сепараций в переменных, но также требует, чтобы были переданы цветовые координаты итоговой сепарации в какой-либо одной цветовой модели. А извлечь информацию о цвете сепарации — это огромная проблема, потому что эти данные зачастую записаны внутри как функция, описывающая цвет. И чтобы рассчитать итоговые значения, надо очень хорошо знать спецификацию стандарта PDF. Я пытался с этим разобраться, но решил, что у меня нет столько времени. Это выше моего потолка знаний. От данного подхода решено было отказаться.

Поиск альтернативы

После осознания, что простого решения в экосистеме Enfocus нет, было решено искать альтернативные библиотеки для работы с PDF. В Node.js и Python подходящих библиотек не нашлось, но в Java была найдена Apache PDFbox.

Apache PDFbox

Apache PDFbox — это библиотека с открытым исходным кодом на языке Java, которая позволяет создавать, рендерить, печатать, разделять, объединять, изменять, проверять и извлекать текст и метаданные из PDF-файлов. С её помощью было создано приложение "normalize_spot_color", которое позволяет транслитерировать и нормализовать имена сепараций.

Наверх

Использование как консольного приложения Java

Приложение принимает один обязательный и пять вспомогательных параметров:

java -jar "Путь к файлу" "Разрешенные символы" "Символ замены" "Вспомогательная кодировка" "Путь к transliteration.json" "Нормализовывать имена"

Пример использования:

java -jar "d:\normalize_spot_color-1.0.jar" "d:\Test.pdf" "#()-_" "_" "windows-1251" "d:\transliteration.json" "All"

Путь к pdf файлу (обязательно) — путь к изменяемому файлу;

Разрешенные символы — по умолчанию, разрешены латинские буквы a-Z (в обоих регистрах), цифры 0-9 и пробелы, их указывать не надо. В этом параметре можно указать дополнительные символы, которые также можно использовать в названиях сепараций. Например "#()-_".
Если символ указан и в этом параметре, и далее в файле transliteration.json, то транслитерация производиться не будет.

Символ замены — символ, на который заменяются неразрешенные символы.
Если символ замены не указан или пуст, тогда неразрешенные символы будут просто удалены.

Вспомогательная кодировка — по умолчанию в PDF для хранения имен сепараций используется кодировка UTF-8. Но на самом деле, может использоваться любая другая, это зависит от программы, с помощью которой создана сепарация. Например, на компьютере с Windows при создании сепарации в pdf с кириллическими символами в названии при помощи Prinect PDF Toolbox, данное название кодируется при помощи кодировки "windows-1251".
Normalize_spot_color всегда сначала пытается прочитать название сепарации как закодированное с помощью UTF-8. Если же после внутренней проверки станет понятно, что использовалась не UTF-8, то для чтения строки будет использована указанная в данном параметре кодировка.
Если кодировка не указана, то будет использована UTF-8.

Путь к transliteration.json — можно создать свой словарь транслитерации, тогда символы, находящиеся в этом словаре будут замены не символом замены, а символом из словаря. По ссылке для скачивания есть пример с кириллицей.

Нормализовывать ли имена сепарации — варианты: <Off|All|Transliterated only>.
Off — не производить нормализацию, сепарации будут только транслитерированы и/или некоторые символы в них будут замены.
All — все имена сепараций будут нормализованы при необходимости.
Transliterated only — будут нормализованы только те сепарации, в которых были обнаружены и заменены нелегальные символы.
Данная опция позволяет нормализовать, то есть привести к единому виду, имена сепараций:
• слово PANTONE, если название сепарации начинается с него, всегда пишется в верхнем регистре и отделено от последующих цифр пробелом; 1-3 буквы, идущие после цифрового индекса и обозначающие стандарт цвета в пантоне — тоже всегда капсом и отделены пробелом ("PANTONE 931 CVU").
• eсли название сепарации начинается с цифр, то в начале автоматом добавляется слово PANTONE. А если после цифр нет буквенного индекса, добавляется "C".
• остальные слова всегда начинаются с заглавной буквы, а все последующие буквы в них — строчные.
Если опция опущена или указана неверно, нормализация не производится.

Использование в Enfocus Switch

Хотя приложение можно использовать как отдельный консольный продукт, изначально оно разрабатывалось для использования в Switch. Для удобства написано NormalizeSpotPDFbox.sscript

Все настройки вполне понятны и почти полностью дублируют настройки из normalize_spot_color.jar. Кроме одной, которую надо объяснить отдельно:

Path to Java JRE folder — если у вас установлена Java, то можно ничего здесь не указывать. Если же Java не установлена, то можно скачать Java JRE как zip-архив (например, отсюда), распаковать в какую-то папку и не устанавливать, а просто указать путь (внутри папки должна находиться подпапка bin).

Наверх