pantsugroups
diff --git a/‎.gitignore
+4 b/‎.gitignore
+4
diff --git a/‎kindlegen
27.3 MB b/‎kindlegen
27.3 MB
diff --git a/‎main.py
+40 b/‎main.py
+40
diff --git a/‎pyepub/__init__.py
+2 b/‎pyepub/__init__.py
+2
diff --git a/‎pyepub/__pycache__/__init__.cpython-36.pyc
153 Bytes b/‎pyepub/__pycache__/__init__.cpython-36.pyc
153 Bytes
diff --git a/‎pyepub/__pycache__/epub.cpython-36.pyc
4.39 KB b/‎pyepub/__pycache__/epub.cpython-36.pyc
4.39 KB
diff --git a/‎pyepub/__pycache__/html.cpython-36.pyc
1.15 KB b/‎pyepub/__pycache__/html.cpython-36.pyc
1.15 KB
diff --git a/‎pyepub/epub.py
+137 b/‎pyepub/epub.py
+137
diff --git a/‎pyepub/html.py
+39 b/‎pyepub/html.py
+39
@@ -0,0 +1,4 @@
+/__pycache__/
+*.mobi
+*.txt
+*.epub
@@ -0,0 +1,40 @@
+# -*- coding: utf-8 -*-
+import os
+import sys
+from time import time
+
+from pyepub import EPUB
+
+filename = sys.argv[1]
+
+# 加载ePub文件
+epub = EPUB(filename)
+
+# EPUB对象属性
+sha1 = epub.sha1            # ePub文件SHA-1(str)
+nav = epub.nav              # ePub目录(list)
+nav_point = epub.nav_point  # ePub章节(dict)
+items = epub.items          # ePub文件(dict)
+metadata = epub.metadata    # ePub元数据(dict)
+
+# 遍历ePub元数据(可用epub[name]快速访问)
+for name, data in metadata.items():
+    print("%s:" % name.capitalize(), data)
+
+# 获取ePub文件内资源
+cover = epub.get_file(epub["cover"])
+
+# 转换至mobi格式
+t = time()
+with open(os.path.splitext(filename)[0] + ".mobi", "wb") as file:
+    file.write(epub.convert_to_mobi())
+t1 = time() - t
+print("'mobi' file has been saved to '%s'[%.2fs]" % (os.path.splitext(filename)[0] + ".mobi", t1))
+
+# 转换至txt格式
+t = time()
+with open(os.path.splitext(filename)[0] + ".txt", "wb") as file:
+    file.write(epub.convert_to_txt().encode("utf-8"))
+t2 = time() - t
+print("'txt' file has been saved to '%s'[%.2fs]" % (os.path.splitext(filename)[0] + ".txt", t2))
+
@@ -0,0 +1,2 @@
+# -*- coding: utf-8 -*-
+from .epub import EPUB
@@ -0,0 +1,137 @@
+# -*- coding: utf-8 -*-
+import os
+import shutil
+from zipfile import ZipFile
+from subprocess import Popen, PIPE
+from hashlib import sha1
+
+from bs4 import BeautifulSoup as BS
+
+from .html import HTML
+
+
+class EPUB:
+    
+    def __init__(self, filename):
+        self.filename = filename
+        self._file = ZipFile(filename, "r")
+        self.sha1 = None
+        self.nav = []
+        self.nav_point = {}
+        self.items = {}
+        self.metadata = {}
+        self.check_mimetype()
+        self._sha1()
+        self.read_ncx()
+        self.read_opf()
+    
+    def __getitem__(self, name):
+        assert (name in self.metadata), KeyError(
+            "'%s' has no metadata named '%s'" % (self.filename,
+                                                 name))
+        return self.metadata[name]
+    
+    def _sha1(self):
+        if self.sha1:
+            return self.sha1
+        with open(self.filename, "rb") as file:
+            self.sha1 = sha1(file.read()).hexdigest()
+        return self.sha1
+    
+    def check_mimetype(self):
+        try:
+            mimetype = self._file.read("mimetype")
+            assert mimetype == b"application/epub+zip", \
+                   TypeError("'%s' is not a ePub file" % self.filename)
+        except KeyError:
+            raise TypeError("'%s' is not a ePub file" % self.filename)
+    
+    def read_xml(self, filename, decoder="lxml"):
+        try:
+            xml = self._file.read(filename)
+            return BS(xml, decoder)
+        except KeyError:
+            raise FileNotFoundError(
+                "'%s' has no file named '%s'" % (self.filename, filename))
+    
+    def read_ncx(self):
+        ncx = self.read_xml("OEBPS/toc.ncx")
+        for nav in ncx.find_all("navpoint"):
+            self.nav_point[nav["id"]] = {
+                "id": nav["id"],
+                "title": nav.navlabel.text.strip(),
+                "content": os.path.join("OEBPS", nav.content["src"]),
+                "play_order": nav.PlayOrder or len(self.nav) + 1}
+            self.nav.append(self.nav_point[nav["id"]])
+    
+    def read_opf(self):
+        opf = self.read_xml("OEBPS/content.opf")
+        for data in opf.metadata.contents:
+            if data.name is None:
+                continue
+            elif data.name == "meta":
+                self.metadata[data["name"]] = data["content"]
+            elif data.name[:3] == "dc:":
+                self.metadata[data.name[3:]] = data.text
+            else:
+                self.metadata[data.name] = data.text
+        for item in opf.find_all("item"):
+            self.items[item["id"]] = {
+                "id": item["id"],
+                "href": os.path.join("OEBPS", item["href"]),
+                "media-type": item["media-type"]}
+    
+    def get_file(self, name):
+        assert (name in self.items), FileNotFoundError(
+            "'%s' has no file named '%s'" % (self.filename, name))
+        return self._file.read(self.items[name]["href"])
+    
+    def tmp(self):
+        _path = os.path.join("/tmp", self.sha1)
+        if not os.path.exists(_path):
+            os.mkdir(_path)
+        return _path
+    
+    def fix_opf(self):
+        opf = self.read_xml("OEBPS/content.opf")
+        _list = set()
+        for item in opf.find_all("item"):
+            if item["id"] in _list:
+                item.extract()
+            else:
+                _list.add(item["id"])
+        return str(opf)
+    
+    def convert_to_mobi(self, kindlegen=None):
+        if not kindlegen:
+            kindlegen = os.path.join(os.getcwd(), "kindlegen")
+        if not os.path.exists(kindlegen):
+            raise FileNotFoundError("Kindlegen not found")
+        _tmp = self.tmp()
+        self._file.extractall(_tmp)
+        with open(os.path.join(_tmp, "OEBPS/content.opf"), "wb") as file:
+            file.write(self.fix_opf().encode("utf-8"))
+        ps = Popen("%s -dont_append_source OEBPS/content.opf" % kindlegen,
+                   shell=True,
+                   cwd=_tmp,
+                   stdout=PIPE)
+        ps.wait()
+        with open(os.path.join(_tmp, "OEBPS/content.mobi"), "rb") as file:
+            mobi = file.read()
+        shutil.rmtree(_tmp)
+        return mobi
+    
+    def convert_to_txt(self):
+        txt = self["title"]
+        for nav in self.nav:
+            _title = nav["title"]
+            _file = nav["content"]
+            _text = HTML(self._file.read(_file)).purify().strip()
+            if not _text:
+                continue
+            txt += "\n\n\n>>> %s <<<\n\n\n" % _title
+            txt += _text
+            txt += "\n\n\n>>> 本章结束 <<<\n\n\n"
+        txt += ">>>>> The End <<<<<"
+        return txt
+        
@@ -0,0 +1,39 @@
+# -*- coding: utf-8 -*-
+from bs4 import BeautifulSoup as BS
+
+
+class HTML:
+
+    def __init__(self, html):
+        self.bs = BS(html, "lxml")
+        self.txt = ""
+        self.inline = ["a", "b", "em", "i", "span", "strong"]
+        self.block = ["div", "p", "h1", "h2", "h3", "h4", "h5", "h6"]
+        self.ignore = ["img"]
+    
+    def plain(self, element):
+        c = element
+        if len(list(element.contents)) == 1:
+            if c.name == "br":
+                return "\n"
+            elif c.name in self.ignore:
+                return ""
+            elif c.name in self.inline:
+                return element.text
+            elif c.name in self.block:
+                return element.text + "\n"
+        txt = ""
+        for c in element.children:
+            if c.name == "br":
+                return "\n"
+            elif c.name in self.ignore:
+                continue
+            elif c.name in self.inline:
+                txt += self.plain(c)
+            elif c.name in self.block:
+                txt += self.plain(c) + "\n"
+        return txt    
+    
+    def purify(self):
+        return self.plain(self.bs.body)
+
-Original file line number
+Diff line change
 +/__pycache__/
 +*.mobi
 +*.txt
 +*.epub
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+# -- coding: utf-8 --`
	`2`	`+from .epub import EPUB`