Превръщане на хартиена книга в електронна

Версия на документа 1.2 / 11.04.2020


1. Сканиране

Много хора са установили, че сканиране в "черно-бял" режим прави по-малки файлове, и се спестява място на диска. Но когато сканираме книга с цел да я обработим и направим на един цял файл в DejaVu или PDF формат, или пък искаме да я превърнем в текст - скановете са само първия етап от работата, и не е необходимо да пестим. Нужно е качество, за да стане крайния продукт по-качествен и текста да е четлив.

Препоръчително е страници, в които няма цветни изображения да се сканират в режим "grayscale" (степени на сивото), с разделителна способност поне 300 точки на инч (dpi). Получените изображения може да имат лек "фон". Не се стремете да променяте настройките "яркост" и "контраст", за да премахнете фона, защото така ще пострадат и някои по-светли части или по-тънки чертички от самите букви. При обработката на изображенията със ScanTailor страниците ще бъдат преобразувани в "черно-бели", и фона ще изчезне, така че по време на сканирането оставете настройките за яркост и контраст по подразбиране.

За страниците с текст формата на файловете се препоръчва да е без загуба на качеството, например TIFF. Може да е компресиран TIFF, но има различни компресии. Препоръчва се да се ползва TIFF със ZIP компресия, но не и с JPG компресия. В краен случай може да е TIFF без компресия, и просто ще се получат по-големи по размер файлове, което изобщо не е проблем, защото тези файлове и без това по-късно ще можете да изтриете, след като бъдат обработени, и получените нови файлове ще са многократно по-малки по размер. Ако скенера ви няма възможност за избор на TIFF формат, тогава изберете JPG в "grayscale" режим.

Кориците обикновено са цветни, и съответно трябва да се сканират в цветен режим, препоръчително поне на 400 точки на инч, и може да се избере JPG формат. Сканирайте предна и задна корица.

Забележка: Някои скенери в софтуера си имат и настройкa за типа на обекта, който сканирате. Например "document", "magazine", "photo" и други подобни. Направете проба с една страница, сканирайте я няколко пъти в различните режими на тази настройка, и изберете този режим, с който се получава най-реалистично изображение (най-вероятно "photo" ще даде добър резултат. В режимите "document", "text", "magazine" и други подобни софтуера на скенера ще се опита да почисти фона, което е погрешно). Не е необходимо скана да бъде "по-чист", с избелен фон, а се търси най-детайлния резултат. Възможно е настройката за типа на обекта по подразбиране да е "auto", което също е погрешно, защото за различните страници софтуера на скенера може да избира различни режими в зависимост от това дали някъде по страницата има петънца, или картинка. В резултат на това ще получите скан в който някои страници са по-светли, а други по-тъмни. Така че изпробвайте различните режими за настройка на типа, изберете подходящия режим и настройте сканирането с него, а не на "auto".

Ако скенера може да събере разгъната книга, може да сканирате по две страници наведнъж, така ще се спести време. Но в такъв случай обърнете внимание на тази част от текста, която е близо до сгъвката на книгата между двете страници. Трябва хартията да е колкото може по-добре прилепена към стъклото на скенера, за да не се получи изкривяване или размазване на текста на това място. В самата сгъвка винаги ще се получава тъмна ивица, но там обикновено няма текст, и не представлява никакъв проблем, защото на по-късен етап от обработката това поле ще бъде изрязано. При CIS скенерите ако хартията се е повдигнала дори на милиметър от стъклото - се получава разфокусиране (размазване), което след това не може да бъде поправено. Притискайте книгата надолу към стъклото, но не и настрани към ръба на скенера. Това може да предизвика "вълнички", и на места хартията да се отдели от стъклото на скенера. Не ограничавайте областта на сканиране, ако няма конкретна причина. Добре е в изображението да влезе цялата страница до края на хартията, и дори малко по-широко. Ако в изображението попадне и част от ръцете на сканировчика, който притиска книгата към стъклото - няма проблем. Все пак тези изображения ще бъдат обработвани, и всичко излишно ще бъде изрязано. Но ако още при сканирането част от страниците липсва - няма как да бъде поправено при по-нататъшната обработка. Сканирайте страниците по един и същи начин от началото до края.

Сканирайте всички страници от книгата, включително и празните. Повечето книги имат съдържание, в което се вписват номерата на страниците на които започват съответните глави. Ако сте пропуснали празни страници от книгата - номерацията на файловете след това няма да съвпадне. При книга от 300 страници например, ако 4-5 от тях са празни - няма да ви спести кой-знае колко време, ако ги пропуснете, така че сканирайте всичко.

Скана може да се получи доста голям - от порядъка на 500-600 мегабайта, и дори повече. Все пак живеем във време, в което хард-дисковете с 1-2 терабайта обем станаха достъпни, и място колкото за един филм в SD качество, изтеглен от торент не би трябвало да е кой-знае какъв проблем, така че не губете време в мислене за мегабайтите, а се съсредоточете върху обработката на скановете. При качествено сканирани и обработени изображения - в DejaVu формат крайния резултат обикновено е от порядъка на 2-5 мегабайта за цяла книга (за PDF е доста повече, но размера зависи от настройките при направа на PDF-а).

(примери за сканиране и сравнение на различни режими - работи се по страницата)


2. Scan Tailor

ScanTailor е семпла програма, оптимизирана за обработка на сканирани книги. Оптималното в програмата е, че сканираните страници се обработват заедно, а не всяка поотделно, както често се прави в програмите за обработка на растерни изображения. В ScanTailor се зареждат сканираните изображения, и в шест етапа се прави избор на няколко неща по страниците, а крайния резултат се получава едва в последния етап на обработката. Не може да се прескачат етапи. Необходимо е да се премине през всичките шест етапа. Така че първоначалните файлове, получени при сканирането са необходими през целия процес на обработка, и не трябва да се трият.

Етап 1 - поправка на ориентацията на страниците. В случай, че изображенията от скенера са получени "завъртени" например на 90 градуса - в този етап може да се изправят.

Етап 2 - разделяне на страниците. Ако книгата е сканирана по две страници наведнъж - в този етап се прави разпознаването на "леви" и "десни" страници.

Етап 3 - компенсация на наклона. По време на сканирането много трудно се постига "права" страница, особено, ако се сканират по две страници наведнъж, и има разлика в наклона на "леви" и "десни" страници, така че в този етап се прави леко "завъртане" на страниците така, че да са прави. Визуално в "миниатюрите" отдясно вече всяка страница се показва отделно дори ако при сканирането са сканирани по две страници наведнъж.

Етап 4 - избор на съдържание. В този етап се прави маркиране само на същинската част от страниците, без полетата отстрани. Именно затова в процеса на сканиране не е проблем, че в сгъвката на книгата остават тъмни ивици, или че около страницата се виждат и други артефакти или ръце и т.н. В този етап на обработката тези излишни неща ще бъдат изрязани.

Етап 5 - полета. В този етап се избира подравняването на страниците и се добавят нови полета около текста. Кориците обикновено имат отпечатък до края на хартията, и за тях се оставят полета с 0 мм от всички страни, но на страниците с текст в този етап се избират полетата така, че текста да се позиционира върху страницата по начин, колкото е възможно по-сходен с оригинала. Затова в процеса на сканиране е добре да не се ограничава прекалено областта на сканиране, за да се вижда края на хартията за ориентир, и да може да се изберат подходящи полета.

Етап 6 - краен резултат. В този етап по подразбиране страниците ще се обработват в черно-бял режим, но за всяка страница може да се избере дали да се обработва цветно. Обикновено цветно се избира за кориците, и за страници в които има цветни изображения. Ако има страници с текст и изображения - за тях може да се избере "смесен" режим. При преминаването на този етап се получават и изходните файлове в нова директория.

При подходящо направени полета, крайния резултат от обработката дава изображения с еднакъв размер и позиционирани еднакво, така че след като бъдат пакетирани в DejaVu или PDF формат - файла ще има добър вид.

(подробен урок за работа със ScanTailor)

(видео-урок за работа със ScanTailor за начинаещи)

(видео-урок за работа със ScanTailor за напреднали - работи се)


3. Пакетиране на изображенията в DejaVu или PDF формат

DejaVu формата дава по-добър резултат за сканирани книги и размера на получения файл е многократно по-малък, но за съжаление инструментите за направа на качествен DejaVu са малко по-сложни в сравнение с направата на PDF. От гледна точка на потребителя, за четене не би трябвало да има проблем с нито един от двата формата. Както PDF файл може да се отвори с Acrobat Reader например, така и DejaVu файл може да се отвори с WinDejaVu или под Android с програмата EBookDroid, или други програми, които поддържат тези формати.

Забележка: Важно е да се знае, че крайните файлове DejaVu или PDF, направени от сканирани изображения са идентични като визия и разположение с оригинала на книгата. Текста не може да се "преподреди" според по-малък екран, ако бъде отворен файла в електронен четец, не може да се сменя шрифта и/или размера му. Ако на някой му е необходимо да получи текстов вариант на книгата - това може да бъде направено по начина, описан в следващата точка.

(направа на DejaVu от обработени изображения - работи се по страницата)

(направа на PDF от обработени изображения - работи се по страницата)


4. Преобразуване на сканирани изображения в текст

Процеса се нарича OCR (Optical Character Recognition) или в превод: "оптично разпознаване на символи". Съществуват различни програмни продукти за тази цел, включително и online такива. Сканираното изображение тези програми го преобразуват в текст, който може да бъде редактиран и поддържа търсене. Разбира се тези програми не са безгрешни, и след OCR процеса обикновено се налага да се извърши корекция на текста, което трябва да го свърши човек. Възможно е корекцията да се прави в текстов редактор, който поддържа проверка на правописа, което малко улеснява работата.

(подробен урок за работа с ABBYY Fine Reader 11 - работи се по страницата)


5. Форматиране на текст в SFB формат, и добавяне в "Моята библиотека"

"Моята библиотека", или както най-често я наричат "Читанка" работи със собствен формат за е-книгите - SFB, от който формат автоматично се получават крайните формати, подходящи за отваряне в електронен четец - FB2 и EPUB.

На практика направата на е-книга не е по-различно от оформянето на какъвто и да е друг документ например в Word, но принципа на оформление малко се различава. При оформлението на документ в Word човек избира части от текста как иска да изглеждат - например с по-големи букви, центрирано, удебелени, или оформени като цитат… При подготовката на е-книга за "Моята библиотека" текста се обработва в TXT формат, в който по принцип всички букви изглеждат еднакво, но за е-книга е необходимо елементите от текста да бъдат маркирани така, че да е ясно какво са. Визуализирането върху екрана на електронен четец или на екрана на компютър се прави от софтуера, с който се отваря електронната книга.

Форматирането в SFB може да се прави дори с най-простия текстов редактор Notepad (препоръчва се програмата Notepad++). Маркирането на отделните елементи от текста, че са заглавие на секция, цитати, епиграфи и прочее се прави с прости текстови символи, които лесно се пишат от клавиатурата. Целта е да се опрости процеса на форматиране и да не се налага човек да изписва сложни оформящи тагове.

Основно за SFB е изискването всеки абзац да представлява един непрекъснат ред, и в края да завършва с Enter. В началото на всички абзаци трябва да има табулатори, които един вид оформят едно своеобразно "поле" от лявата страна на текста. Точно в това "поле" отляво на табулаторите се вписват символите с които се оформят елементите от текста. Получения TXT файл се съхранява с кодировка UTF-8 без BOM, и може да бъде качен в работното ателие на библиотеката. След проверка от страна на упълномощено лице дали текста е подготвен качествено и дали отговаря на правилата на библиотеката - следва етап на добавяне.

(подробно описание на формата SFB)