carlthome · caitriggs · May 16, 2018 · May 17, 2018 · Aug 1, 2018 · Aug 1, 2018
diff --git a/.travis.yml b/.travis.yml
@@ -6,6 +6,7 @@ cache: pip
 install:
 - pip install .
 - pip install pytest-cov flake8
+- sudo apt-get install ffmpeg
 script:
 - pytest --cov=audioscrape
 - flake8

diff --git a/audioscrape/__main__.py b/audioscrape/__main__.py
@@ -2,14 +2,20 @@
 """Download audio."""
 import argparse
 import sys
+import os
 
 from . import soundcloud, youtube
 
 
-def download(query, include=None, exclude=None, quiet=False, overwrite=False):
+def download(query, include=None, exclude=None, quiet=False,
+             overwrite=False, fileformat=None):
     """Scrape various websites for audio."""
-    youtube.scrape(query, include, exclude, quiet, overwrite)
-    soundcloud.scrape(query, include, exclude, quiet, overwrite)
+    # Create subdirectory for converted audio files if --fileformat tag set
+    if fileformat:
+        if not os.path.exists(fileformat):
+                os.makedirs(fileformat)
+    youtube.scrape(query, include, exclude, quiet, overwrite, fileformat)
+    soundcloud.scrape(query, include, exclude, quiet, overwrite, fileformat)
 
 
 def cli(args=None):
@@ -20,7 +26,8 @@ def cli(args=None):
         'query',
         default="Cerulean Crayons",
         nargs='?',
-        help="search terms")
+        help="search terms"
+    )
     parser.add_argument(
         '-i',
         '--include',
@@ -40,20 +47,33 @@ def cli(args=None):
         '--quiet',
         default=False,
         action='store_true',
-        help="hide progress reporting")
+        help="hide progress reporting"
+    )
     parser.add_argument(
         '-o',
         '--overwrite',
         default=False,
         action='store_true',
-        help="overwrite existing files")
+        help="overwrite existing files"
+    )
+    parser.add_argument(
+        '-ff',
+        '--fileformat',
+        default=None,
+        action='store',
+        help="file format to save audio file as (wav, mp3, ogg)"
+    )
     args = parser.parse_args()
 
     if not args.quiet:
         print('Downloading audio from "{}" videos tagged {} and not {}.'.
               format(args.query, args.include, args.exclude))
-    download(args.query, args.include, args.exclude, args.quiet,
-             args.overwrite)
+    download(args.query,
+             args.include,
+             args.exclude,
+             args.quiet,
+             args.overwrite,
+             args.fileformat)
     if not args.quiet:
         print("Finished downloading audio.")
 

diff --git a/audioscrape/audioconvert.py b/audioscrape/audioconvert.py
@@ -0,0 +1,23 @@
+# coding=utf-8
+'''Convert audio clips to user defined format via ffmpeg'''
+import subprocess
+
+
+def ffmpeg_convert(file, audio_title, fileformat,
+                   channel=1, sampling_rate=16000):
+    '''
+    Convert audio file to designated file type
+    defaults using 16kHz, mono channel wav commonly used in
+    training automatic speech recognition models
+    '''
+    command = ['ffmpeg', '-hide_banner',  # quiet ffmpeg banner
+               '-loglevel', 'panic',   # quiet ffmpeg stdout
+               '-i', "./{}".format(file),  # input file to convert
+               '-f', '{}'.format(fileformat),  # output fileformat type
+               '-ac', '{}'.format(channel),  # mono channel default
+               '-ar', '{}'.format(sampling_rate),  # sampling rate 16000Hz default
+               '-vn',  # only want audio, no video
+               "./{0}/{1}.{0}".format(fileformat,
+                                      audio_title.replace(" ", "_"))]
+    subprocess.call(command)
+    return None
diff --git a/audioscrape/soundcloud.py b/audioscrape/soundcloud.py
@@ -9,6 +9,7 @@
 import requests
 import soundcloud
 from tqdm import tqdm
+from . import audioconvert as audc
 
 
 def sanitize(s):
@@ -22,7 +23,7 @@ def sanitize(s):
     API_KEY = "81f430860ad96d8170e3bf1639d4e072"
 
 
-def scrape(query, include, exclude, quiet, overwrite):
+def scrape(query, include, exclude, quiet, overwrite, fileformat):
     """Search SoundCloud and download audio from discovered playlists."""
 
     # Launch SoundCloud client.
@@ -95,3 +96,8 @@ def pagination(x):
                             unit='MB',
                             file=sys.stdout):
                         f.write(data)
+                # Convert to fileformat using ffmpeg
+                if fileformat:
+                    audc.ffmpeg_convert(file,
+                                        sanitize(track.title),
+                                        fileformat)
diff --git a/audioscrape/youtube.py b/audioscrape/youtube.py
@@ -4,6 +4,7 @@
 import re
 
 import pafy
+from . import audioconvert as audc
 
 try:
     from urllib.parse import urlencode
@@ -12,7 +13,7 @@
     from urllib import urlencode, urlopen
 
 
-def scrape(query, include, exclude, quiet, overwrite):
+def scrape(query, include, exclude, quiet, overwrite, fileformat):
     """Search YouTube and download audio from discovered videos."""
 
     # Search YouTube for videos.
@@ -51,3 +52,17 @@ def scrape(query, include, exclude, quiet, overwrite):
 
         # Download audio to working directory.
         audio.download(quiet=quiet)
+
+        '''
+        Since pafy.Stream object (audio) does not appear to grab audio content
+        itself until Stream.download(), we must convert
+        the audio after download with ffmpeg.
+
+        Convert to fileformat using ffmpeg
+        '''
+        if fileformat:
+            audio_name = str(audio.title)
+            audio_extension = str(audio.extension)
+            audc.ffmpeg_convert('.'.join([audio_name, audio_extension]),
+                                audio_name,
+                                fileformat)
diff --git a/tests/test_audioscrape.py b/tests/test_audioscrape.py
@@ -8,4 +8,6 @@ def test():
         query='Cerulean Crayons',
         include=['guitar'],
         exclude=['remix'],
-        quiet=False)
+        quiet=False,
+        fileformat='wav'
+        )