یکی از چالشهای متون فارسی وجود نیمفاصلههای کاذب است. ظاهری شبیه به نیمفاصله دارند، اما در حقیقت نویسههای دیگری هستند.
این نویسهها خصوصاً وقتی از یک سند به سند دیگری کپی میشوند، میتوانند باعث نمایش نادرست متن، بههمریختگی خطوط و مشکلاتی در جستوجوی محتوا شوند.
در واژهپرداز لیبرهآفیس با کمک عبارتهای باقاعده میشود همهٔ آنها را یافت، اما استفاده از آن زحمتهای خاص خودش را دارد. بنابراین با کمک هوش مصنوعی یک ماکروی پایتون ساختم که همان کار را بیدردسر و بدون خطا انجام بدهد.
این ماکرو همهٔ نیمفاصلههای کاذب (که ۷ تا هستند) را پیدا و اصلاحشان میکند. در پایان کارش هم یک گزارش از نتیجهٔ اصلاحاتش میدهد.
1. Soft Hyphen (SHY) ← کد یونیکد: U+00AD
2. Not Sign ← کد یونیکد: U+00AC
3. Right-to-Left Mark (RLM) ← کد یونیکد: U+200F
4. Four-Per-Em Space ← کد یونیکد: U+2005
5. Zero Width No-Break Space (BOM, ZWNBSP) ← کد یونیکد: U+FEFF
6. Zero Width Space (ZWSP) ← کد یونیکد: U+200B
7. Zero Width Joiner (ZWJ) ← کد یونیکد: U+200D
📥 ماکرو را میتوانید از اینجا دریافت کنید.