自動換行
此條目需要精通或熟悉相關主題的編者參與及協助編輯。 (2011年1月16日) |
顯示文字時, 換行(line wrap)是指文字在一行已滿後轉到新行,使每行都可在視窗範圍看到,不需水平滾動。
自動換行(word wrap)是大多數文字編輯器、文書處理器、和網頁瀏覽器的附加功能。用於在行間或一行里的單詞間隔處分行,不考慮單一單詞超過一行長度的情況。
它通常是在看文檔或打印的時候實時完成,所以沒有儲存或人手插入換行代碼[來源請求]。如果改變文檔邊緣,編輯器就會自動重排換行符的位置,保證全部文字都處於可見狀態,或者給打字員提供一些便捷的方式重排換行符。
單詞邊界、斷字和硬空格
軟回車通常放在完整單詞後面,或者緊接完整單詞的標點符號後,但也可能在連字號後。
連字號後可用非斷字連字號代替一般連字號避免自動換行,也可在單詞中插入隱形連字號(軟連字號)使文字處理軟件在該處自動換行。
單詞間可用硬空格避免自動換行。
中日韓文字的自動換行
在中文,日文和韓文中,漢字常認為是一個詞,因此自動換行可以在漢字之前或之後發生。
而在某些情況下,是不需換行。例如:
- 人名處不宜換行
- 複合詞處不宜換行
大多數現有的文字處理和排版軟件不能處理上述任何情況。
中日韓標點符號可能不遵守上述特殊情況,這些規則常稱為避頭尾(意思是「禁止規則處理」)。
避頭尾有一個總是成立的特例:自動換行永遠不能在中日韓越統一表意文字符集中的破折號和省略號之間發生。雖然由於現存字符編碼的關係,這些符號需要用兩個字符表示,但這些字符實際上是一個兩字符寬的符號,而不是兩個單字寬的符號對。
算法
自動換行是最優化問題。因應不同的需求,有不同的解決辦法。
最小長度
自動換行可用貪心算法簡單實現:儘可能將單詞放進一行,直到所有單詞都放進去。這是很多現代文字處理軟件的做法,如Microsoft Word和Open Office 。這算法在追求最少行數的目標上能夠達到最優化。下面是偽代碼:
SpaceLeft := LineWidth for each Word in Text if Width(Word) > SpaceLeft insert line break before Word in Text SpaceLeft := LineWidth - Width(Word) else SpaceLeft := SpaceLeft - (Width(Word) + SpaceWidth)
LineWidth指行寬,SpaceLeft指一行中剩餘的空格,SpaceWidth是空格寬度,Text是文字,Word是文字中的單詞。
最小破損度
TeX用的則是另一條算法,旨在將行尾空格數的平方和最小化,使結果更美觀。以上算法不能完成這目標,如:
aaa bb cc ddddd
如果懲罰函數定義為行尾剩餘空格數的平方,則貪婪算法會得到一個次優解(為了簡化起見,不妨假設採用定寬字體):
------ 一行的宽度为6 aaa bb 剩余的空格数:0,平方=0 cc 剩余的空格数:4,平方=16 ddddd 剩余的空格数:1,平方=1
總計代價17,而最佳的解決方案是這樣的:
------ 一行的宽度为6 aaa 剩余空格数:3 平方=9 bb cc 剩余空格数:1 平方=1 ddddd 剩余空格数:1 平方=1
請注意,第一行在bb前斷開了,相對於在bb後斷開的解法,可以得到更好的右邊界和更低的代價11。
解決這問題需定義懲罰函數,用於計算包含單詞到單詞的一行的代價:
其中通常為或。另外,有一些特殊的情況值得考慮:如果結果為負(即單詞串不能全部放在一行里),懲罰函數需要反映跟蹤或壓縮文字以適應一行的代價;如果這是不可能的,則返回
最優解的代價可以用以下的遞歸式定義:
這可以利用動態規劃來高效地實現,時間和空間複雜度均為
參見
外部連結
Knuth's algorithm
- "Knuth & Plass line-breaking Revisited" (頁面存檔備份,存於互聯網檔案館)
- "tex_wrap": "Implements TeX's algorithm for breaking paragraphs into lines." (頁面存檔備份,存於互聯網檔案館) Reference: "Breaking Paragraphs into Lines", D.E. Knuth and M.F. Plass, chapter 3 of _Digital Typography_, CSLI Lecture Notes #78.
- Text::Reflow - Perl module for reflowing text files using Knuth's paragraphing algorithm. "The reflow algorithm tries to keep the lines the same length but also tries to break at punctuation, and avoid breaking within a proper name or after certain connectives ("a", "the", etc.). The result is a file with a more "ragged" right margin than is produced by fmt or Text::Wrap but it is easier to read since fewer phrases are broken across line breaks."
- adjusting the Knuth algorithm to recognize the "soft hyphen".
- Knuth's breaking algorithm. (頁面存檔備份,存於互聯網檔案館) "The detailed description of the model and the algorithm can be found on the paper "Breaking Paragraphs into Lines" by Donald E. Knuth, published in the book "Digital Typography" (Stanford, California: Center for the Study of Language and Information, 1999), (CSLI Lecture Notes, no. 78.)" ; part of Google Summer Of Code 2006
- "Bridging the Algorithm Gap: A Linear-time Functional Program for Paragraph Formatting" (頁面存檔備份,存於互聯網檔案館) by Oege de Moor, Jeremy Gibbons, 1999
其他自動換行有關的連接
- the reverse problem -- picking columns just wide enough to fit (wrapped) text Archive.is的存檔,存檔日期2007-09-27
- KWordWrap Class Reference (頁面存檔備份,存於互聯網檔案館) used in the KDE GUI
- "Knuth linebreaking elements for Formatting Objects" by Simon Pepping 2006. Extends the Knuth model to handle a few enhancements.
- "Page breaking strategies" (頁面存檔備份,存於互聯網檔案館) Extends the Knuth model to handle a few enhancements.
- "a Knuth-Plass-like linebreaking algorithm ... The *really* interesting thing is how Adobe's algorithm differs from the Knuth-Plass algorithm. It must differ, since Adobe has managed to patent its algorithm (6,510,441)."[1]
- "Murray Sargent: Math in Office" (頁面存檔備份,存於互聯網檔案館)