Открыть сканированный документ в формате word. Как отсканированный текст, перевести в редактируемый текст

Довольно часто среди пользователей сканеров возникает вопрос о том, как отредактировать отсканированный документ. В целом решить задачу подобного рода можно, воспользовавшись специальным программным обеспечением или онлайн-сервисом, который поддерживает конвертацию из PDF в любой удобный для редактирования формат. Ниже вы можете ознакомиться с несколькими популярными ПО и сервисами, которые помогут вам произвести конвертирование отсканированных документов с целью их дальнейшего редактирования.

Решение задачи с помощью OCR

Если вам нужно редактирование отсканированных документов, то воспользуйтесь любой программой OCR, функция которой заключается в оптическом распознавании символов. Данное ПО сравнивает символы в отсканированном файле с теми символами, которые имеются в его БД. После этого, программа данной категории производит конвертацию файла в удобный текстовый формат. Однако примите во внимание, что далеко не все OCR способны работать на бесплатной основе – среди них есть немало и платных вариантов. Также учтите, что в зависимости от того, насколько качественно вам удастся выполнить сканирование оригинала, вы можете столкнуться с различными ошибками, редактируя готовый скан. Чтобы решить непосредственно задачу связанную с тем, как редактировать сканированный текст следуйте следующей инструкции:

  • Загрузите программу OCR с официального сайта разработчика или любого надежного веб-ресурса и установите ее.
  • Откройте редактируемый файл в окне программы. Данный процесс может отличаться для каждого ПО подобного типа, но в целом от вас потребуется открыть файл, после чего запустить процесс конвертации. Во многих таких программах можно выбирать подходящий формат выходного файла. Главное, чтобы измененный тип документ был удобен для вас.
  • После произведенной конвертации вам нужно будет удалить из готового файла форматирование, если с ним возникли какие-то проблемы. Дело в том, что ПО может учесть форматирование, к примеру, шрифты, межстрочные интервалы, если сканируемый файл отсканируется недостаточно ровно. Чтобы удалить форматирование используйте любой текстовый редактор, к примеру, обычный «Блокнот». Он, как правило, не способен распознавать форматирование, благодаря чему вставить текст в него можно без лишнего кода.
  • В конце вам нужно открыть новый документ в любом удобном редакторе и приступить к такому процессу, как редактирование сканированных документов. Обязательно воспользуйтесь функцией проверки орфографии, чтобы вовремя найти все ошибки и устранить их. Но ошибки, связанные с форматированием, придется исправлять ручным образом.

Но прежде чем включить сканер и отсканировать тот или иной текст, вам стоит изначально определиться с удобной для вас программой оптического распознавания символов. Далее можно ознакомиться с одними из самых популярных и распространенных среди них:

  1. Одной из самых известных программ категории OCR, является ABBYY FineReader, работающая на платной основе. Данное ПО используется для конвертирования сканов в текстовые файлы с помощью запатентованных алгоритмов, которые позволяют распознавать даже текст, имеющий не очень высокое качество. В целом преимущества программы заключаются в высокой точности распознавания текста, способности преобразовывать всю структуру и внешний вид отсканированного текста. Следовательно, она оставит на своих местах не только текст, но также таблицы, рисунки и прочее.
  2. Readiris Pro — также является довольно распространенной программой с функцией OCR, которая обладает очень удобным интерфейсом. С ее помощью можно сохранить распознанный текст в таких форматах, как XPS, OpenOffice, PDF, Word и Excel. Следует добавить, что эта программа позволяет работать с более чем сотней языков мира и форматом DjVu.
  3. Freemore OCR представляет собой программу, распространяемую абсолютно бесплатно. С ее помощью можно достаточно оперативно извлекать графику и текст с отсканированных изображений. Извлеченный текст можно сохранить в виде документа Word. Помимо этого, она обладает функцией многостраничного распознавания. Но учтите, что интерфейс программы выполнен только на английском языке. Однако данное обстоятельство не влияет на удобство ее использования.

Решение задачи с помощью онлайн-сервисов

Если вас интересует ответ на вопрос о том, как изменить отсканированный документ, не устанавливая специальных программных приложений, то воспользуйтесь любым онлайн-сервисом, предлагающим конвертирование изображений в текст. Обычно все эти ресурсы работают по одной схеме. Вам нужно лишь загрузить скан документа, предварительно сохранив его в PDF-формате, после чего следуя рекомендации выбрать нужное задание и нажать на что-то типа «Конвертировать» (везде по-разному). Затем сервис выдаст вам готовый файл в виде документа Word.

  • Одним из самых удобных и лучших сервисов, предлагающих конвертирование PDF в Word с целью редактирования скана, является smallpdf.com . Его преимущества заключаются в простом интерфейсе, быстрой работе, отличном качестве результата, поддержке работы с Dropbox и Google-диском и массой дополнительных функций. Бесплатно воспользоваться им можно только два раза в час. При необходимости вы можете приобрести платный Pro-аккаунт, в результате чего список функций будет заметно расширен.
  • Также довольно удобным онлайн-сервисом конвертации является zamzar.com. Он отличается возможностью пакетной обработки файлов, большим количеством вариантов конвертирования и быстротой. При этом использовать этот ресурс можно абсолютно бесплатно. Однако здесь имеются ограничения по размеру – не больше 50 мб. Чтобы снять этот лимит, вам придется оплатить соответствующий тариф. Кроме того, результат можно получить только на e-mail, который придется предварительно ввести перед загрузкой файла.

Если Вы выбрали быстрый путь написания теоретической главы, о котором мы говорили в параграфе 2.1., вероятней всего Вам не обойтись без сканирования документов. В ином случае, этот пункт можете пропустить и начинать конспектировать материалы найденные в библиотеке .

Перед началом сканирования нужно определиться, что именно Вы хотите использовать при написании работы. А для этого нужно сначала просмотреть имеющуюся литературу и выделить карандашом нужные моменты.

Когда я впервые сканировал статью из журнала для своей первой курсовой, для меня это занятие было невообразимо сложным. В результате нескольких часов работы со сканером и FineReader’ом у меня на выходе вышла бредятина, не поддающаяся редактированию. В итоге пришлось все набирать руками. Чтобы у Вас не случилось подобного, рассмотрим подробнее все технические моменты сканирования.

Для сканирования нам, конечно же, потребуется сканер. Его не обязательно покупать. Можно, например, на время взять на время у товарища. Я пользуюсь сканером CanoScan Lide 60. Это хоть и не самая новая модель, но мне очень нравится этот компактный, быстрый и удобный в работе “девайс”. Если Вы взяли на время сканер, для того чтобы он работал нужно сначала установить программу-драйвер. Драйвера и руководство по установке всегда можно найти на установочном диске, который прилагается к устройству или скачать на сайте у производителя. После установки драйвера, подключите сканнер к компьютеру с помощью соединительного шнура. Теперь можно уже непосредственно приступить к сканированию.

Но сначала немного теории. Вы должны знать, что процесс сканирования состоит из двух этапов:

1. Непосредственно сканирование документа. На этом этапе сканнер как бы фотографирует поверхность сканируемого документа и сохраняет полученное изображение на компьютер в виде обычного файла.jpg .gif или в другом формате;

2. Распознавание документа. Это процесс преобразования текста из изображения сделанного сканером в обычный тест, который потом можно сохранить в Word и редактировать. Распознавание осуществляется без участия сканера, с помощью специальной программы (самая популярная Adobe FineReader). Таким образом, Вы можете сначала отсканировать несколько листов текста и сохранить их в виде изображения и только потом преобразовывать в текст.

Итак, начнем этап первый – сканирование :

– запускаем драйвер сканера: Пуск – Все программы – Canon – ScanGear (название драйвера я указываю для своего сканера). Появится окно драйвера:

– открываем крышку сканера и кладем книгу, журнал или их копию текстом вниз, как можно ровнее по отношению к краям рабочей поверхности сканера:

Здесь очень важно сделать так, чтобы крышка сканера как можно плотнее прижимала сканируемый документ, не допуская попадания внешнего освещения не рабочую поверхность сканера, которая соприкасается с документом;

– выполним необходимые установки в драйвере сканнера. Первым делом нужно установить разрешение, в котором будет отсканирован документ. Разрешение – это показатель, который определяет уровень детализации объекта при сканировании и определяется в точках на дюйм (dpi, или т/д). Чем больше разрешение, тем качественнее получается изображение. Но, при сканировании текстовых документов нет смысла устанавливать максимальное разрешение, поскольку толку от этого будет ноль. Кроме того, сканирование с большим разрешением занимает больше времени. Я рекомендую устанавливать разрешение в пределах 400-500 т/д (dpi). При такой настройке изображения получаются достаточно качественными для хорошего их распознания, а сам процесс сканирования не занимает много времени. Предлагаю посмотреть на скриншот установок моего принтера:


Для начала нужно перейти в “Расширенный режим”. Источником всегда будет “Планшет” (планшетный сканер). Цветной режим лучше установить “Черно-белый” , ведь для сканирования текста нам цвета не нужны, а это уменьшит размер изображений на выходе. Разрешение, как я уже сказал, следует установить 400 т/д . Выходной размер изображения – обязательно “А4” . Теперь можно смело жать на кнопку “Сканировать” . Мой сканер устроен таким образом, что сначала запоминает отсканированные изображения во внутренней памяти, и только при закрытии окна драйвера предлагает сохранить их на компьютер. Мне остается только указать место, куда будут сохранены результаты работы.

У вас должны получаться файлы такого типа:

При увеличении такого изображения должен быть отчетливо виден текст.

Второй этап распознание полученных изображений и их преобразование в текст. Как я уже говорил, для этого понадобится специальная программаFineReader . Скачайте программу по этой ссылке (32Мб) . Пароль к архиву – сайт . Предложенная мной версия не требует установки (portable). В папке с программой будет множество разных файлов, но Вам нужен только один – FineReader.exe . Двойной клик на этом файле запустит программу на Вашем компьютере.

Эта версия программы достаточно старая. Все скриншоты ниже я делал используя именно её. Если эта версия FineReader у вас не запускается - выберите более новую .

Окно FineReader имеет следующий вид:

После установки языка, на котором напечатаны отсканированные Вами ранее документы, можно начинать распознание. Если в тексте присутствует сразу два языка (например, русский и английский) установку сделайте соответственно.

Чтобы начать распознание нажмите на стрелку справа от первой кнопки Сканировать – а затем – Открыть изображение:

Откроется окно выбора изображений. Откройте папку в которую Вы сохранили отсканированные изображения, нажмите CTRL + A (английское) на клавиатуре и нажмите на кнопку Открыть .

После этого слева в окне FineReader’а появятся эскизы добавленных файлов, по центру – на данный момент выделенный эскиз в увеличенном виде, снизу – еще большее увеличение, а справа результат распознания:

Для примера я взял всего два изображения. На скриншоте выше выделено первое из них, его сейчас и распознаем. Как видите, изображение отсканировано вертикально, чтобы распознать текст снимок нужно сначала развернуть на 90 градусов. Для этого воспользуемся кнопками и . Следующим шагом нужно указать программе, какую именно часть изображения нужно распознать, а также задать тип данных, которые должны получиться на выходе текст, таблица или изображение. Для этого существуют кнопки, соответственно: . Например, если нужно отметить текстовый блок, нажимаем левой кнопкой на , после этого нажимаем левой кнопкой мышки в левом верхнем углу текстового блока и, удерживая левую кнопку, перетягиваем в правый нижний угол. Для примера я полностью подготовил к распознанию одно изображение:

Как видите, все текстовые блоки в примере выше выделены зеленым, а рисунки – красным. Таблицы подготавливаются к распознанию аналогично. Для этого предназначена кнопка . Для того, чтобы перейти к следующему снимку, кликните левой кнопкой мыши на его эскизе слева. Таким образом подготавливаются к распознанию все полученные в результате сканирования изображения. После того, как подготовка изображений завершена, следует выделить их все. Для этого кликните левой кнопкой в пустом месте на панели эскизов (она называется Пакет ) и нажмите Ctrl+A (английское) на клавиатуре. Далее кликните на кнопку и подождите пока FineReader преобразует изображения в текст. После этого можно сохранять полученный текст в Word с помощью кнопки , после нажатия на которую откроется окно . В нем необходимо выбрать формат для сохранения – Microsoft Word, а также поставить отметку чтобы сохранились все страницы:

После нажатия кнопки ОК программа создаст документ Word и вставит в него текст из распознанных страниц в том порядке, в котором они находятся на панели эскизов (Пакет). Полученный документ сразу же сохраните в папку в файловой структуре дипломной работы и можете приступать к редактированию. Как это делается, описано в моем бесплатном курсе .

И последний момент. Эсли Вы сканировали газету или журнал, текст там часто дается в виде колонок (как в рассматриваемом примере выше). Эти колонки в Ворде нужно преобразовать в одну. Выделите текст в виде колонок и выполните команду: Формат – Колонки – Одна – ОК . Только после этого можно ставить Книжную ориентацию в Параметрах страницы, отступы полей, шрифт и т.д.

Как отсканировать документ и распознать его в MS Word

Текстовый редактор Word от Microsoft Office установлен на большинстве компьютеров пользователей. Это удобная и практичная программа для набора и редактирования любой информации. Досаду вызывает только то, что открыть при помощи такого ПО файлы, отличающиеся форматом от doc, практически невозможно. Когда это необходимо, возникает вопрос: как перевести в «Ворд»? С этой задачей довольно просто справляется ряд программ. Самой популярной из них является Fine Reader. Она за считанные секунды распознает по изображению тексты на различных языках и без труда переведет их в формат doc.

Программа для отсканированных документов № 1

Пользователю нет необходимости иметь под рукой сканер. FineReader - инструмент, при помощи которого каждый легко решит задачу, как отсканированный документ перевести в «Ворд» с флэш-носителя, цифровой камеры или с мобильного телефона. Пользователю достаточно подключить гаджет к компьютеру и запустить программу.

Интерфейс и доступные задачи

После запуска программы монитор компьютера отобразит меню, логично разложенное по командам. FineReader к основным задачам относит:

  • сохранение документа в «Ворд»;
  • конвертацию изображения из формата PDF в doc;
  • просто сканирование и сохранение снимка;
  • создание документа PDF с функцией поиска;
  • перемещение фото в Word.

На этом этапе пользователь может настроить цветовой режим: цветной или монохромный, и языки распознания. Доступны для обработки такие из них, как английский, русский, испанский, итальянский, немецкий. Также пользователь может воспользоваться выбором искусственно созданных языков: эсперанто, интерлингва, ИДО.

Если перед пользователем стоит такая задача, как отсканировать документ, несущий в себе, к примеру, текст медицинского характера, то программа распознает латинский шрифт, после того как будет поставлена галочка в необходимом чекбоксе. Также FineReader видит и формальные языки. Он успешно справляется с распознанием простых химических формул. Пользователь, который часто работает с документами на различных языках, может сэкономить свое время, воспользовавшись функцией их автоматической настройки.

Пример того, как отсканированный документ перевести в «Ворд»

Рассмотрим простейшую задачу. В наличии документ на русском языке, отсканированный и сохраненный на флэш-носителе. Чтобы его перевести в «Ворд»-документ, необходимо:

  1. Запустить программу Abby FineReader.
  2. Вставить накопитель в USB-разъем компьютера.
  3. Выбрать пункт меню «Файл в Word».
  4. В открывшемся окне проводника указать путь к изображению, которое необходимо преобразовать.
  5. Дважды кликнуть правой кнопкой мыши по выбранному файлу.

После всех перечисленных действий программа начинает самостоятельную работу. Окно FineReader при этом разделится на три столбца. В первом из них отобразятся все страницы документа. В расположенном посередине столбце пользователь может видеть, с какой именно на данный момент работает программа. Крайний левый столбец на время процесса распознания остается пустым.

По окончании работы преобразованный документ автоматически открывается в «Ворде». Пользователю остается отредактировать текст в тех местах, где FineReader не смог распознать текст, и сохранить его на своем компьютере или флэш-носителе.

Ошибки

Понятно, что на вопрос, как отсканированный документ перевести в «Ворд», ответ оказался довольно простым. Но все ли так всегда безоблачно? Часто изображения имеют низкое разрешение. И тогда FineReader вместо готового файла в формате doc выдает ошибку. Но нет повода расстраиваться. Многие причины, которые мешают распознанию текста, можно устранить при помощи все того же FineReader. Для этого в программе есть меню команд «Редактировать». Выбрав его, пользователь имеет возможность:

  • изменить разрешение;
  • исправить перекос сканированного изображения;
  • отрегулировать яркость и контрастность;
  • обрезать, разбить на части и повернуть документ и многое другое.

Сканер, документ, FineReader

Говоря о функциональности программы для распознания текста, отдельно хотелось бы сказать о возможности работы с различной оргтехникой и гаджетами. Так, установка FineReader на жесткий диск девайса снимает перед пользователем вопрос - как отсканировать документ на компьютер?

Дело в том, что не всегда хватает одного драйвера устройства для работы какой-либо оргтехники. Сканер не исключение. Как правило, в комплекте с ним прилагается диск с программой, которая и обеспечивает работу с устройством. Но функциональность такого ПО часто ограничена.

FineReader совместим со всеми сканерами известных производителей. Установив его на свой компьютер, пользователь может использовать эту программу в качестве ПО для работы с изображениями. Документы можно просто сканировать и сохранять; задать команду оставлять отснятое изображение сразу в «Ворд»; создавать PDF-файлы. Из них же переводить тексты в текстовой редактор Microsoft Office. В итоге одна небольшая программа с легкостью справляется с такой задачей, как отсканировать документ на компьютер, и может заменить громоздкие графические инструменты, при этом обеспечив бесперебойную работу целого офиса.

1. Выберите один PDF файл или файл изображения для распознавания.
2. Нажмите кнопку Распознать .




7. Пользуйтесь на здоровье

1. Выберите один ZIP файл содержащий изображения для распознавания. Только 20 файлов могут быть распознаны одновременно.
2. Нажмите кнопку Распознать .
3. Файл отсылается на наш сервер и распознавание начинается немедленно.
4. Скорость распознавания зависит от размера файла, скорости Вашего интернет соединения и доступных ресурсов на наших серверах.
5. Когда распознавание закончено, файл возвращается в то же самое окно браузера (не закрывайте Ваш браузер).
6. В случае невозможности распознавания, причина будет указана красным цветом.
7. Пользуйтесь на здоровье

Выберите PDF или файл изображение для распознавания Поддерживаются только PDF/JPG/JPEG/PNG/BMP/GIF/TIF/TIFF файлы

Русский English German French Spanish Italian Belgium Arabic Chinese Simplified Chinese Traditional Hindi Indonesian Tamil Telugu Portuguese Malaysian Ukranian

Идет распознавание


Это может занять несколько минут

На данной странице возможно распознавание только PDF JPG JPEG PNG BMP GIF TIF .

  • Для конвертирования MS Word (DOC DOCX) в PDF воспользуйтесь ссылкой Word в PDF .
  • Для конвертирования RTF ODT MHT HTM HTML TXT FB2 DOT DOTX XLS XLSX XLSB ODS XLT XLTX PPT PPTX PPS PPSX ODP POT POTX в PDF воспользуйтесь ссылкой Другие документы в PDF .
  • Для конвертирования JPG JPEG PNG BMP GIF TIF TIFF в PDF воспользуйтесь ссылкой Изображение в PDF .
  • Для извлечения текста из PDF документа воспользуйтесь ссылкой PDF в TXT .
  • Для конвертирования DOC DOCX RTF ODT MHT HTM HTML TXT FB2 DOT DOTX в DOC DOCX DOT ODT RTF TXT или XLS XLSX XLSB XLT XLTX ODS в XLS XLSX или PPT PPTX PPS PPSX ODP POT POTX в PPT PPTX PPS PPSX JPG TIF PNG GIF BMP воспользуйтесь ссылкой Другие форматы .
  • Для конвертирования DOC DOCX DOT DOTX RTF ODT MHT HTM HTML TXT в FB2 воспользуйтесь ссылкой Документы в FB2 .
  • Для конвертирования JPG JPEG JFIF PNG BMP GIF TIF ICO в другие форматы, воспользуйтесь ссылкой Конвертировать изображение .
  • Для конвертирования PDF в MS Word (DOC, DOCX), воспользуйтесь ссылкой Конвертировать PDF в Word .
  • Для конвертирования PDF в JPG, воспользуйтесь ссылкой Конвертировать PDF в JPG .
  • Для конвертирования DJVU в PDF, воспользуйтесь ссылкой Конвертировать DJVU в PDF .

Выберите ZIP архив для распознавания Поддерживаются только ZIP файлы

Русский English German French Spanish Italian Belgium Arabic Chinese Simplified Chinese Traditional Hindi Indonesian Portuguese Malaysian Ukranian

Как перевести текст со сканера?

Ответ мастера:

Предназначение сканера - это создание цифровых копий изображений. Документ, полученный с помощью сканера, можно быть сохранить как в виде рисунка, так и перевести в текстовый формат. В данном случае все зависит от того, к какому конечному результату мы стремимся, и какое приложение используется для работы.

По умолчанию отснятые изображения сохраняются сканером в форматах.jpg-, .bmp- или.tiff. Файлы таких форматов могут обрабатываться в графических редакторах. В них можно осуществлять изменение разрешения, контрастности, яркости документа или применять иные визуальные эффекты. С помощью кроссплатформенного формата.pdf можно получать другие возможности, но для работы с документом, полученным с помощью сканера, в формате текста, требуется либо отдельная функция сканера, либо специальное приложение для распознавания текста.

Для начала изучим возможности сканера. Многие модели содержат встроенную утилиту, при помощи которой можно переводить отсканированное изображение в текст (она идет вместе с устройством, находясь на установочном диске). В меню сканера эта опция обозначена как «Распознавание текста», либо OCR (Optical Character Recognition). Если такая опция отсутствует, установим приложение сторонних разработчиков, к примеру, Fine Rider.

Выберем в меню сканера либо программы кнопку, которая начинает сканирование и дождемся его окончания. После этого сведения из документа могут быть или в автоматическом режиме переведены в текстовой формат и открыты в блокноте, или нам нужно будет проделать несколько дополнительных действий.

Если текст сохранился в формате.txt, сохраним документ обычным способом, либо скопируем его содержимое и вставим в документ другого формата, к примеру, .doc . Если мы все еще видим текст в виде картинки, то нужно выбрать шаг «Распознать» и дождаться завершения процесса. Далее выбираем команду «Экспорт» или скопируем распознанный текст и вставим его в документ в подходящем для нас формате.

Качество «перевода» текста со сканера определяют выбранные настройки разрешения. При более высоком разрешении получается более точная копия. Если мы собираемся перевести рисунок в текст, то оптимальный вариант в таком случае - средние настройки разрешения. Если разрешение является слишком низким, копия будет выглядеть нечеткой, следовательно, распознавание текста будет происходить тяжелее. Если разрешение является чересчур высоким, то из-за лишних шумов также затруднится работу по переводу графики в текст.

Статьи по теме: