ReferatFolder.Org.Ua — Папка українських рефератів!


Загрузка...

Головна Журналістика. ЗМІ. Радіо. Преса. Телебачення → Редагування спецдокументації

Автоматичне редагування (більшу частину операцій контролю й виправлення виконує СР, а меншу - людина; крім того, людина приймає рішення в неформалізованих конфліктних ситуаціях).

2.2.2 Етапи опрацювання тексту

Комп\'ютерне редагування має свої специфічні розмежовані в часі етапи опрацювання тексту:

передредагування, тобто попереднє ручне розмічування оригіналу, яке виконує людина з метою наступного автоматизованого чи автоматичного редагування, наприклад, задання для рубрик спеціальних стилів їх оформлення, розставлення міток у бібліографічному описі тощо;

інтерредагування, яке виконує сама СР, проводячи операції контролю й виправлення тексту;

постредагування, яке виконує людина, проводячи ті операції контролю й виправлення тексту, що їх не змогла виконати СР.

Комп\'ютерне редагування здійснюють послідовно: від однієї одиниці до іншої. Закінчивши опрацювання на одному рівні, переходять до наступного (в напрямі від нижчих рівнів до вищих).

„Специфіка порівневого опрацювання полягає в тому, що переходити до вищого рівня можна лише тоді, коли на нижчому всі помилки вже усунуті (наявність помилки на нижчих рівнях унеможливлює опрацювання вищих). Для порівняння вкажемо, що під час традиційного редагування людина опрацьовує текст інтегрально, тобто охоплює одночасно кілька сусідніх рівнів\" [1].

2.3 Комп\'ютерний словник

2.3.1 Роль електронного словника для редагування текстів

Комп\'ютерний словник для СР найчастіше створюють на основі частотного словника потрібної мови. Це викликане тим, що слова в тексті за частотою розподіляються згідно із законом Ципфа. Цей закон формулюють так: якщо для якогось досить великого тексту скласти список усіх слів, що вживаються в ньому, полічити для кожного слова частоту його вживання, розмістити слова в порядку спадання цих частот, перенумерувати ці слова від 1 (номер „1\" присвоюють найбільш частому слову) до R, то добуток порядкового номера (рангу, r) будь-якого слова списку на його частоту появи в тексті (1) буде майже сталою величиною (с):

f∙r = c

На практиці це означає, що, коли перша тисяча слів частотного словника покриває близько 75% слів будь-якого тексту, то перші дві тисячі слів лише 80%, перші п\'ять тисяч - лише 85% і т.д. Тобто, покриття тексту словами частотного словника відбувається дуже нерівномірно: невелика кількість слів із верхньої частини частотного словника покриває три чверті тексту, а більшість слів із нижньої його частини - решту, лише четверту частину.

Щоби забезпечити максимальне покриття тексту, яке істотно залежить від семантичного наповнення словника, часто чинять так: у комп\'ютерному словнику виділяють словник загальновживаної лексики (загальний словник) і лексику окремих галузей знань (галузеві словники). У кожний галузевий словник, крім термінів і номіналів, включають також персоналії (власні імена й прізвища людей), географічні назви, скорочення та абревіатури. Далі для контролю тексту якоїсь конкретної галузі використовують загальний словник, а також добирають потрібний галузевий словник.

Комп\'ютерні словники, які використовують для редагування текстів, класифікують:

за типом лексичних одиниць - словники словоформ, в яких слова подають у всіх їх словозмінних формах, і словники основ, у яких до основи кожного слова вказують всі її можливі закінчення;

за наявністю блоків для аналізу морфем (префіксів, суфіксів, закінчень), за допомогою яких від основ можна утворювати нові похідні слова.

Для аналітичних мов (на зразок англійської) частіше використовують словники словоформ, а для синтетичних (як українська) - словники основ.

Кожен із цих словників має свої недоліки і переваги. Так, словник словоформ дуже легко можна створити, опрацювавши на комп\'ютері достатньо великий масив текстів і записавши всі однакові слова у вигляді словника на комп\'ютерний носій інформації. На жаль, такий словник за обсягом у кілька разів буде перевищувати аналогічний словник основ, який можна створити лише нетрадиційним способом. Тому інколи для синтаксичних мов використовують комбінований тип словників, в яких для найуживаніших словоформ подають також усі інші можливі закінчення.

2.3.2 Методи реконструкції

Операції виправлення значно складніші, ніж операції контролю. Вони дають змогу автоматично виправляти лише окремі знаки в словах. Серед цих методів найвідоміший абревіатурний, алфавітний, базовий, комбінаторний та цифровий. Розглянемо їх на прикладі алфавітного методу.

Для алфавітного методу кожен запис у реконструюючому словнику утворюють із чотирьох полів:

для запису правильного (нормованого) слова;

для запису довжини слова в знаках;

для запису алфавіту від „а\" до „я\";

для позиційного запису кількості входжень літер у правильне слово. Подамо приклад такого запису:

поле 1: структура

поле 2: 9

поле 3: а б в г ґ д е є ж з и і ї й к л м н о п р с т у ф х ц ч ш щ ю я

поле 4: 112122

У такому словнику всі записи сортують за довжинами слів. Слова, довжина яких менша, ніж три літери, до словника не входять; їх реконструюють на основі окремого словника часто вживаних слів. Редакторові як підказку видають слів-кандидатів для виправлення тексту (найчастіше до 10), з яких редактор повинен вибрати потрібне. Таке слово за командою редактора автоматично вставляється в текст на місце помилкового.

Ефективність алфавітного методу реконструкції за певних умов може досягати 0,8. Недоліками цього та інших методів реконструкції є те, що вони для слів малої довжини видають порівняно велику кількість слів-кандидатів.

Метод повністю автоматизованої реконструкції полягає в тому, що помилки в деяких часто вживаних словах є однаковими у великій кількості людей, а тому можна задати їх автоматичне виправлення за допомогою реконструюючого словника підстановок (наприклад, завжди заміняти зпід на з-під, свойого на свого тощо). За допомогою такого словника можна контролювати й автоматично заміняти суржик і типові часто повторювані помилки.

Інтегрована лексикографічна система.

„Словники України\"

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

УКРАЇНСЬКИЙ МОВНО-ІНФОРМАЦІЙНИЙ ФОНД

Інтегрована лексикографічна система

Словники України

Передмова.

Інтегрована лексикографічна система \"Словники України\" призначена для надання користувачам лексикографічної інформації. Вона складається з п\'яти словникових підсистем-модулів - парадигматичної, транскрипції, фразеології, синонімічної та антонімічної.

Реєстр.

Основу генерального реєстру системи \"Словники України\" складає реєстр Орфографічного Словника української мови, 2-е видання (К.: Довіра, 1999), який практично повністю відтворено й значно розширено в цій системі. Генеральний реєстр включає понад 150 тис. слів.

Парадигма.

Парадигматичний модуль створено на основі розробленої в Українському мовно-інформаційному фонді НАН України словозмінної класифікації української лексики, в якій виділено за певними формальними ознаками близько 1500 парадигматичних класів для всіх відмінюваних повнозначних частин мови, а з урахуванням акцентуації - близько 3000 класів. Завдяки вказаній класифікації й розробленій процедурі парадигматизації побудовано повний перелік усіх граматичних форм для усіх лексичних одиниць, наведених у реєстрі. Це забезпечило візуалізацію усіх словоформ в усіх граматичних значеннях. Повне число словоформ для понад 150 тис. одиниць реєстру є порядку 3 млн. У модулі \"Парадигма\" користувач, вибравши в реєстрі будь - яке слово, автоматично одержує в правому вікні екранну таблицю всіх словоформ для вибраної реєстрової одиниці з поданням їх граматичних параметрів.