Интеллектуальные возможности современных систем обработки текстов
Сейчас мы узнаем, как компьютер может «слушать» вашу речь, «читать» бумажные книги и переводить тексты на разные языки. Звучит как магия? На самом деле это технологии, которыми вы пользуетесь каждый день!
Голосовой ввод текста
Давайте представим: у вас куча домашки, пальцы устали печатать, а мысли летят быстрее, чем вы успеваете набирать. Что делать? Включить голосовой ввод и просто наговорить текст!
💡 Что такое распознавание речи?
Распознавание речи — это технология, которая переводит то, что вы говорите вслух, в напечатанный текст. Представьте, что у компьютера появились «уши», и он учится понимать человеческую речь. Правда, для этого понадобилось много лет разработки и миллионы часов записанной речи, чтобы научить искусственный интеллект различать слова, интонации и даже акценты.
Голосовой ввод — говори, а компьютер сам всё напечатает
📱 Где это используется?
Голосовой ввод текста работает в:
- Текстовых редакторах (Microsoft Word, Google Docs)
- Мобильных приложениях (заметки в телефоне)
- Онлайн-сервисах для создания субтитров к видео
🎯 Зачем это нужно?
Как вы думаете, кому это особенно помогает?
- Врачам — быстро наговорить историю болезни пациента
- Блогерам — надиктовать черновик поста
- Людям с ограниченными возможностями — тем, кто не может печатать
✅ Практический совет: как получить качественный результат?
Чтобы компьютер вас хорошо понял, нужно:
- Проверить микрофон — он должен работать исправно
- Сесть поближе к микрофону — так звук будет чище
- Говорить чётко — не торопитесь и не бормочите
- Убрать фоновый шум — выключите музыку, телевизор
🌐 Попробуй сам!
Есть бесплатный онлайн-сервис SpeechTexter (http://gotourl.ru/12725), который работает в браузере Google Chrome. Он поддерживает более 60 языков, включая русский. Запустите его и попробуйте надиктовать небольшой текст — это реально круто!
Оптическое распознавание текста (OCR)
Давай разберём на примере: у вас есть старая книга с интересной информацией для доклада. Но чтобы процитировать её, нужно перепечатывать страницы вручную. Скука! А можно просто сфотографировать страницу, и компьютер сам «прочитает» текст и превратит его в документ, который можно редактировать.
💡 Что такое OCR?
Оптическое распознавание символов (англ. Optical Character Recognition — OCR) — это технология, которая позволяет преобразовывать отсканированные тексты, фотографии документов или картинки с надписями в редактируемый текст.
Вот как это работает: программа анализирует изображение, находит на нём буквы и цифры, сравнивает их с шаблонами, которые хранятся в её памяти, и выдаёт вам готовый текст.
OCR превращает бумажные страницы в цифровой текст за секунды
📖 Пример из жизни: роман «Три мушкетёра»
Судите сами. Представьте: ваш одноклассник, который натренировался быстро печатать, может вводить 150 символов в минуту. Звучит быстро? Давайте посчитаем, сколько времени ему понадобится, чтобы перепечатать роман Александра Дюма «Три мушкетёра».
Это издание состоит из 590 страниц. На каждой странице примерно 48 строк, в каждой строке в среднем 53 символа.
Считаем:
590 × 48 × 53 = 1 500 960 символов
Время на ввод:
1 500 960 ÷ 150 = 10 006 минут ≈ 167 часов (почти неделя непрерывной работы!)
А теперь представьте, что ваш одноклассник просто отсканировал книгу с помощью программы распознавания текста. Всё! Готово за пару часов. Вот и экономия времени и сил.
🎤 А что по скорости речи?
Средний темп речи для русского языка — около 120 слов в минуту. Если использовать голосовой ввод, то можно произнести не более 75 слов в минуту (нужно же делать паузы, чтобы компьютер успевал обрабатывать!).
Средняя длина русского слова — примерно 6 букв. Значит, за минуту голосового ввода мы получаем около 75 × 6 = 450 символов. Это в 3 раза быстрее, чем печатать!
Но вот для романа «Три мушкетёра» и этого мало — понадобилось бы всё равно много времени. Поэтому для больших объёмов лучше использовать сканер и OCR.
Любой бумажный документ можно превратить в цифровой файл
🔧 Как это работает: программа ABBYY FineReader
Одна из самых известных программ для OCR — ABBYY FineReader. Вот как она работает:
- Бумажный носитель помещается под крышку сканера (или вы делаете фото на телефон).
- В программе нажимается кнопка «Сканировать и распознать».
- Программа создаёт цифровую копию документа (картинку).
- Затем программа анализирует структуру документа: где текст, где таблицы, где картинки.
- Строки разбиваются на слова, слова — на отдельные буквы.
- Программа сравнивает найденные символы с шаблонами букв и цифр в своей памяти.
- Программа рассматривает разные варианты (вдруг это не «О», а «0»?) и выбирает наиболее вероятный.
- В программу встроены словари для проверки правильности распознанного текста.
- Распознанный текст можно перенести в текстовый редактор (например, Microsoft Word) для дальнейшей работы.
Важно: Вместо сканера можно использовать камеру телефона или цифровой фотоаппарат. Например, в библиотеке можно сфотографировать нужные страницы, а потом дома распознать их с помощью ABBYY FineReader.
Компьютерные словари и программы-переводчики
Часто бывает так, что вы смотрите видео на английском или читаете пост в зарубежном блоге, и вдруг натыкаетесь на незнакомое слово. Раньше приходилось листать толстенный словарь, а теперь достаточно вбить слово в поисковик — и вуаля, ответ через секунду!
💡 Что такое компьютерные словари?
Возможности современных компьютеров по хранению огромных объёмов данных и быстрому поиску информации легли в основу компьютерных словарей и программ-переводчиков.
В бумажном словаре, который содержит несколько сотен страниц, поиск нужного слова — это долгий и утомительный процесс. А компьютерные словари обеспечивают мгновенный поиск нужной статьи. Многие словари также позволяют прослушивать слова (особенно полезно при изучении иностранного языка!), предлагают транскрипцию и примеры употребления слов.
Современные словари умещаются в вашем смартфоне и работают мгновенно
📚 Пример: Macmillan English Dictionary
Один из лучших словарей для изучающих английский язык — MED (Macmillan English Dictionary), доступный онлайн по адресу https://gotourl.ru/12726. В нём можно найти слова или новые значения слов, которые появились в языке сравнительно недавно и не отражены в других источниках.
🌍 Что такое программы-переводчики?
Компьютерные словари переводят отдельные слова и словосочетания. Но что, если нужно перевести целый документ? Для этого существуют программы-переводчики.
Они основаны на формальном знании языка — правилах словообразования и построения предложений. Программа-переводчик сначала анализирует текст на исходном языке, а затем конструирует этот текст на языке, на который требуется перевести.
Программы-переводчики помогают понять тексты на любом языке мира
🔧 Пример: PROMT.One
PROMT.One (www.translate.ru) — бесплатный онлайн-переводчик на основе нейронных сетей, предназначенный для автоматизированного перевода небольших (не более 3000 символов) фрагментов текстовой информации с одного языка на другой. Это старейший российский сервис машинного перевода, созданный более 20 лет тому назад.
✅ Что могут программы-переводчики?
С помощью программ-переводчиков можно успешно переводить:
- Техническую документацию
- Деловую переписку
- Другие текстовые материалы, написанные «сухим» языком
⚠️ Ограничения
Но вот художественные тексты — эмоционально окрашенные, богатые гиперболами, метафорами и другими литературными приёмами — в полной мере может перевести только человек.
Компьютер с этим пока справляется не очень хорошо, потому что ему сложно понять переносный смысл, юмор и игру слов.
🎯 Самое главное
Давайте подведём итоги того, что мы сегодня узнали!
✅ Проверь себя
Проверьте, как хорошо вы усвоили материал!
1. Найди в интернете информацию о трёх современных сервисах голосового ввода текста. Выбери из них тот, который кажется тебе наиболее удачным, и объясни, почему ты его выбрал.
Подсказка: Обрати внимание на качество распознавания, поддержку русского языка, удобство использования.
2. В каких ситуациях программы распознавания текста экономят время и силы человека? Приведи примеры из школьной жизни или хобби.
Подумай о работе с учебниками, книгами из библиотеки, старыми документами...
3. Посчитай сам: Сколько времени потребуется для ввода в память компьютера текста романа А. Дюма «Три мушкетёра» с помощью сканера и программы ABBYY FineReader, если известно, что на сканирование одной страницы уходит 2 секунды, на смену страницы в сканере — 3 секунды, на распознавание страницы — 2 секунды?
Данные для расчёта:
- Количество страниц: 590
- Время на одну страницу: 2 + 3 + 2 = 7 секунд
- Рассчитай общее время в секундах, минутах и часах
4. Найди в интернете информацию о технологии листающего сканирования. В чём её особенность и преимущества?
Подсказка: Эта технология позволяет сканировать книги, не разрезая их.
5. Найди в интернете информацию о технологии OCR. Познакомься с бесплатным онлайн-сервисом распознавания текстов (http://gotourl.ru/15527) и попробуй его в деле.
Попробуй распознать какой-нибудь текст из книги или газеты. Оцени качество распознавания.
6. Как ты думаешь: каковы основные преимущества компьютерных словарей перед словарями в форме печатных книг? А есть ли у бумажных словарей какие-то плюсы?
Подумай о:
- Скорости поиска
- Объёме информации
- Актуальности данных
- Удобстве использования
7. Почему программы-переводчики успешно переводят деловые документы, но не годятся для перевода текстов художественных произведений? Придумай свой пример текста, который программа переведёт плохо.
Подсказка: Подумай о пословицах, поговорках, игре слов, метафорах.
8. Найди в интернете информацию о самых популярных онлайн-сервисах компьютерного перевода. Сравни их возможности. Какой тебе кажется наиболее удобным?
Попробуй Google Translate, Яндекс.Переводчик, DeepL и другие сервисы.
9. Эксперимент! С помощью программы-переводчика переведи на знакомый тебе иностранный язык две фразы, а затем переведи результат обратно на русский.
Фразы для эксперимента:
- «Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией»
- «Не плюй в колодец, пригодится воды напиться»
Сравни исходный текст и конечный результат. Обсуди этот эксперимент в группе или с друзьями!