您現在的位置:網站首頁答辯論文計算機畢業設計

畢業論文 基于XML技術的版面復原研究

  • 簡介:畢業論文-基于XML技術的版面復原研究,共54頁,26602字,版面復原技術是文檔數字化過程中一個重要的步驟。本文利用XML(eXtensible Markup Language)支持結構化標簽組織文檔的優點,實現了文檔的多層次,高保真的版式復原。主要的工作
    類型:word    頁數:54    字數:26602   
    資料包括:論文   
    • 請與管理員聯系購買資料 QQ:5739126
  • 論文簡介
  • 相關論文
  • 論文下載
文件大。4.33MB
適用專業:電子信息工程
適用年級:大學
論文編號:209544

論文簡介:
畢業論文-基于XML技術的版面復原研究,共54頁,26602字
版面復原技術是文檔數字化過程中一個重要的步驟。本文利用XML(eXtensible Markup Language)支持結構化標簽組織文檔的優點,實現了文檔的多層次,高保真的版式復原。主要的工作有:
1,針對目前文檔版面復原尚未得以解決的問題,尤其是字體識別問題進行了研究。在字體識別方面,實現了一種基于紋理的字體識別方法,并與一種基于單字小波特征的字體識別算法進行對比實驗,選定后者為基礎實現了字體識別模塊用于字體信息的提取,可以識別7種中文字體和2種日文字體。
2,將文檔的全部內容,包括物理版式信息,邏輯結構信息等以XML格式進行表達。提出了將文檔版面元素包含的復雜信息按一系列XML標簽及其屬性方式進行組織的方案,實現了支持中日英等多語種的全信息結構化XML文檔格式定義。并開發了表格邏輯結構組裝等提取版面信息的相關技術。
3,研制了還原顯示版面的XSL腳本。腳本利用HTML 4技術控制瀏覽器的顯示,在IE瀏覽器中能夠獲得很好的顯示效果。
利用以上技術,我們實現了一個版面復原系統。該系統以THOCR軟件的輸出結果為基本依據,補充識別其遺漏的部分版式信息,以結構化的組織方式存放所有版面信息,并能夠準確還原顯示。該系統在數字圖書館建設,文檔自動數字化,跨平臺應用等方面都具有廣闊的應用前景。
Layout reconstruction is an important procedure in document digitalization. In this thesis, a hiberarchy hi-fi layout reconstruction system is realized with the help of structured-tab organization supporting of XML (eXtensible Markup Language). The main results are listed as follows:
(1) An investigation has been carried out in order to solve the problem in the layout reconstruction area, especially the font recognition problem. A algorithm to identify the font through texture feature of multiple characters is realized, and is compared with a algorithm based on wavelet feature of single character. The later one is applied in the layout reconstruction system with the capability of identifying 7 Chinese fonts and 2 Japanese fonts.
(2) All the information within the layout, including both physical layout info and logical layout info is described in an XML format. A format of recording all the info by a series of XML tabs and their attributes is proposed, which can describe a multi language holography structured document.
(3) A XSL script used to show the page in browser is developed. The script can gain a perfect visual effect through HTML 4 in IE.
We realized a system through all the technology mentioned above. The system can reconstruct the layout correctly by using not only the output of THOCR but also some additional info. The system may be widely used in digital library, automatic digitalization of documents, etc.
目錄
摘要.............................................................. I
Abstract ......................................................... II
第一章 引言 ....................................................... 1
1.1 版面復原的意義 ..............................................1
1.2 版面復原技術現狀 ............................................2
1.2.1 字體識別技術現狀 ......................................2
1.2.2 版面信息復原技術現狀 ..................................3
1.3 本文主要工作概述 ............................................5
1.4 論文的安排 ..................................................6
第二章 字體識別 ................................................... 7
2.1 基于多個字符紋理特征算法分析 ................................7
2.2 基于單個字符小波特征算法分析 ................................8
2.3 方案對比 ....................................................9
2.3.1 樣本集介紹 .............................................9
2.3.2 對比實驗 ..............................................13
2.3.3 噪聲實驗 ..............................................17
2.4 結論 .......................................................18
第三章 XML 版面復原文檔格式的設計與實現 ........................... 20
3.1 區域屬性介紹 ...............................................20
3.1.1 文字區域 ..............................................20
3.1.2 行屬性 ................................................21
3.1.3 單字屬性 ..............................................21
3.1.4 表格區域 ..............................................21
3.1.5 圖片區域屬性 ..........................................22
3.2 XML 格式設計 ...............................................22
3.3 整體流程 ...................................................23
3.4 XML 文檔的實現 .............................................24
3.4.1 表格組裝 ..............................................26
3.4.2 彩色文本區域的處理 ....................................29
第四章 版式重現 .................................................. 34
4.1 文字區域 ...................................................35
4.1.1 行定位方案 ............................................36
4.1.2 字定位方案 ............................................37
4.2 圖片區域 ...................................................38
4.3 表格區域 ...................................................38
4.3.1 方案一 ................................................38
4.3.2 方案二 ................................................39
第五章 結束語 .................................................... 41
5.1 本文的研究成果 .............................................41
5.2 展望 .......................................................42
參考文獻 ......................................................... 43
致謝與聲明 ....................................................... 44
外文資料的調研閱讀報告 ........................................... 45


論文文件預覽:
共1文件夾,1個文件,文件總大。4.33MB,壓縮后大。1.49MB

  • 畢業論文-基于XML技術的版面復原研究
  • doc畢業論文-基于XML技術的版面復原研究.doc  [4.33MB]

查看評論 已有0位網友發表了看法
  • 驗證碼:
四川三人麻将