mobilismScrap/main.py

from sys import argv
from os import environ
from dotenv import load_dotenv
from cloudscraper import CloudScraper, create_scraper
from re import findall

class Scraper:
    def __init__(self, pseudo, password, app, debug = False):
        self.debug = debug
        self.url = "https://forum.mobilism.org"
        self.requested_app = app
        self.loginData = {
            "username": pseudo,
            "password": password,
            "login": "Login"
        }

    def errorFormat(self, code: int = None, message: str = "") -> str:
        return f"{f'[{code}]' if code else ''}{' ' if len(message) > 0 and code else ''}{message}."

    def connect(self) -> CloudScraper:
        session = create_scraper(browser = {"browser": "chrome", "platform": "windows"}) # connect with cloudflare bypasser with a chrome browser on windows
        if not session:
            raise SystemError(self.errorFormat(message = "The creation of the session failed"))

        if self.debug: print("Retrieval of the login SID...", end = " ")
        reponse = session.get(f"{self.url}/ucp.php", params = {"mode": "login"}) # get login page to get "sid"
        if reponse.status_code != 200:
            raise ConnectionError(self.errorFormat(code = reponse.status_code, message = "Login page not available"))
        try:
            self.loginData["sid"] = reponse.cookies.get_dict()["ppcw_29d3s_sid"] # register "sid"
        except:
            raise ValueError(self.errorFormat(message = "Cookie containing the SID not found."))
        if self.debug: print("SID retrieval done,", end = " ")

        if self.debug: print("connection attempt...", end = " ")
        reponse = session.post(f"{self.url}/ucp.php", data = self.loginData, params = {"mode": "login"}) # connect to the forum using credentials
        if reponse.status_code != 200:
            raise ConnectionRefusedError(self.errorFormat(code = reponse.status_code, message = "Unable to connect"))
        if self.debug: print("Connection done.")

        reponse = session.get(f"{self.url}/index.php", cookies = reponse.cookies, params = {"sid": self.loginData["sid"]}) # back to index page
        if reponse.status_code != 200:
            raise ConnectionError(self.errorFormat(code = reponse.status_code, message = "Unable to get to the index page"))

        return session

    def search(self, session) -> list:
        if self.debug: print("Going to search page...", end = " ")
        reponse = session.get(f"{self.url}/search.php", params = {"keywords": self.requested_app, "sr": "topics", "sf": "titleonly"})
        if reponse.status_code != 200:
            raise ConnectionError(self.errorFormat(code = reponse.status_code, message = "Impossible to make the search"))

        if self.debug: print(f"Results retrieval for {self.requested_app}...", end = " ")

        return self.parse(reponse.text)

    def parse(self, htmlPage: str) -> list:
        if "No suitable matches were found." in htmlPage:
            return []
        elements = htmlPage.split("<tr>\n<td>")[1:]
        elements[-1] = elements[-1].split("</td>\n</tr>")[0]
        for i in range(0, len(elements)):
            try:
                _title = findall(r"class=\"topictitle\">(.*)<\/a>", elements[i])[0]
            except:
                _title = None
            try:
                _author = findall(r"<br />\n<i class=\"icon-user\"></i> by <a href=\"\./memberlist\.php\?mode=viewprofile&amp;u=\d+\"( style=\"color: #.*;\" class=\"username-coloured\")?>(.*)</a>", elements[i])[0][-1]
            except:
                _author = None
            try:
                _link = findall(r"\./viewtopic\.php\?f=(\d*)&amp;t=(\d*)&amp", elements[i])[0]
                _link = {"f": _link[0], "t": _link[1]}
            except:
                _link = None
            elements[i] = {"title": _title, "author": _author, "link": f"https://forum.mobilism.org/viewtopic.php?f={_link['f']}&t={_link['t']}", "linkParams": _link}

        return elements

    def work(self) -> str:
        session = self.connect()
        link = self.search(session)

        return link

def save(elements):
    taille = len(elements)
    if taille == 0:
        print("Aucun élément n'a été trouvé avec la recherche.")
        return
    filename = "results.csv"
    with open(filename, "w") as f:
        f.write(";".join(list(elements[0].keys())[:-1]))
        f.write("\n")
        for element in elements:
            if element != "linkParams":
                print(";".join(list(element.values())[:-1]))
                f.write(";".join(list(element.values())[:-1]))
            f.write("\n")
    print(f"{taille} éléments ont étés enrengistés dans le fichier {filename}.")


if __name__ == "__main__":
    argv = argv[1:]
    if len(argv) >= 3 and len(argv) <= 4:
        save(Scraper(*argv).work())
    else:
        try:
            load_dotenv()
            try:
                debug = environ["DEBUG_MOBILISM"].lower() in ("yes", "true", "1")
            except:
                debug = False
            save(Scraper(environ["PSEUDO_MOBILISM"], environ["PASSWORD_MOBILISM"], environ["APP_MOBILISM"], debug).work())
        except KeyError:
            print('Please fill in the username and password (with ") by args or with .env file.')
adding main file 2021-08-23 12:03:00 +02:00			`from sys import argv`
			`from os import environ`
			`from dotenv import load_dotenv`
big enhancements 2021-08-23 13:56:36 +02:00			`from cloudscraper import CloudScraper, create_scraper`
adding parser 2021-08-23 18:19:04 +02:00			`from re import findall`
adding main file 2021-08-23 12:03:00 +02:00
			`class Scraper:`
add verbose option 2021-08-23 12:22:31 +02:00			`def __init__(self, pseudo, password, app, debug = False):`
			`self.debug = debug`
adding main file 2021-08-23 12:03:00 +02:00			`self.url = "https://forum.mobilism.org"`
			`self.requested_app = app`
			`self.loginData = {`
			`"username": pseudo,`
			`"password": password,`
useless entry in logindata 2021-08-23 13:39:55 +02:00			`"login": "Login"`
adding main file 2021-08-23 12:03:00 +02:00			`}`

big enhancements 2021-08-23 13:56:36 +02:00			`def errorFormat(self, code: int = None, message: str = "") -> str:`
add save and message error 2021-08-23 21:04:31 +02:00			`return f"{f'[{code}]' if code else ''}{' ' if len(message) > 0 and code else ''}{message}."`
add verbose option 2021-08-23 12:22:31 +02:00
big enhancements 2021-08-23 13:56:36 +02:00			`def connect(self) -> CloudScraper:`
add comments 2021-08-23 12:30:10 +02:00			`session = create_scraper(browser = {"browser": "chrome", "platform": "windows"}) # connect with cloudflare bypasser with a chrome browser on windows`
add save and message error 2021-08-23 21:04:31 +02:00			`if not session:`
			`raise SystemError(self.errorFormat(message = "The creation of the session failed"))`
add comments 2021-08-23 12:30:10 +02:00
now the connection is working 2021-08-23 13:39:18 +02:00			`if self.debug: print("Retrieval of the login SID...", end = " ")`
big enhancements 2021-08-23 13:56:36 +02:00			`reponse = session.get(f"{self.url}/ucp.php", params = {"mode": "login"}) # get login page to get "sid"`
create methods 2021-08-23 12:27:11 +02:00			`if reponse.status_code != 200:`
add save and message error 2021-08-23 21:04:31 +02:00			`raise ConnectionError(self.errorFormat(code = reponse.status_code, message = "Login page not available"))`
big enhancements 2021-08-23 13:56:36 +02:00			`try:`
			`self.loginData["sid"] = reponse.cookies.get_dict()["ppcw_29d3s_sid"] # register "sid"`
			`except:`
			`raise ValueError(self.errorFormat(message = "Cookie containing the SID not found."))`
			`if self.debug: print("SID retrieval done,", end = " ")`
add comments 2021-08-23 12:30:10 +02:00
big enhancements 2021-08-23 13:56:36 +02:00			`if self.debug: print("connection attempt...", end = " ")`
			`reponse = session.post(f"{self.url}/ucp.php", data = self.loginData, params = {"mode": "login"}) # connect to the forum using credentials`
create methods 2021-08-23 12:27:11 +02:00			`if reponse.status_code != 200:`
add save and message error 2021-08-23 21:04:31 +02:00			`raise ConnectionRefusedError(self.errorFormat(code = reponse.status_code, message = "Unable to connect"))`
create methods 2021-08-23 12:27:11 +02:00			`if self.debug: print("Connection done.")`
big enhancements 2021-08-23 13:56:36 +02:00
			`reponse = session.get(f"{self.url}/index.php", cookies = reponse.cookies, params = {"sid": self.loginData["sid"]}) # back to index page`
add save and message error 2021-08-23 21:04:31 +02:00			`if reponse.status_code != 200:`
			`raise ConnectionError(self.errorFormat(code = reponse.status_code, message = "Unable to get to the index page"))`
create methods 2021-08-23 12:27:11 +02:00
			`return session`

add save and message error 2021-08-23 21:04:31 +02:00			`def search(self, session) -> list:`
now the connection is working 2021-08-23 13:39:18 +02:00			`if self.debug: print("Going to search page...", end = " ")`
search working but at 50% 2021-08-23 14:02:36 +02:00			`reponse = session.get(f"{self.url}/search.php", params = {"keywords": self.requested_app, "sr": "topics", "sf": "titleonly"})`
add save and message error 2021-08-23 21:04:31 +02:00			`if reponse.status_code != 200:`
			`raise ConnectionError(self.errorFormat(code = reponse.status_code, message = "Impossible to make the search"))`
adding parser 2021-08-23 18:19:04 +02:00
add save and message error 2021-08-23 21:04:31 +02:00			`if self.debug: print(f"Results retrieval for {self.requested_app}...", end = " ")`
better error message 2021-08-23 12:28:44 +02:00
add save and message error 2021-08-23 21:04:31 +02:00			`return self.parse(reponse.text)`
create methods 2021-08-23 12:27:11 +02:00
adding parser 2021-08-23 18:19:04 +02:00			`def parse(self, htmlPage: str) -> list:`
add save and message error 2021-08-23 21:04:31 +02:00			`if "No suitable matches were found." in htmlPage:`
			`return []`
adding parser 2021-08-23 18:19:04 +02:00			`elements = htmlPage.split("<tr>\n<td>")[1:]`
			`elements[-1] = elements[-1].split("</td>\n</tr>")[0]`
			`for i in range(0, len(elements)):`
			`try:`
			`_title = findall(r"class=\"topictitle\">(.*)<\/a>", elements[i])[0]`
			`except:`
			`_title = None`
			`try:`
			`_author = findall(r"<br />\n<i class=\"icon-user\"></i> by <a href=\"\./memberlist\.php\?mode=viewprofile&u=\d+\"( style=\"color: #.;\" class=\"username-coloured\")?>(.)</a>", elements[i])[0][-1]`
			`except:`
			`_author = None`
			`try:`
			`_link = findall(r"\./viewtopic\.php\?f=(\d)&t=(\d)&amp", elements[i])[0]`
			`_link = {"f": _link[0], "t": _link[1]}`
			`except:`
			`_link = None`
add save and message error 2021-08-23 21:04:31 +02:00			`elements[i] = {"title": _title, "author": _author, "link": f"https://forum.mobilism.org/viewtopic.php?f={_link['f']}&t={_link['t']}", "linkParams": _link}`
adding parser 2021-08-23 18:19:04 +02:00
			`return elements`

big enhancements 2021-08-23 13:56:36 +02:00			`def work(self) -> str:`
create methods 2021-08-23 12:27:11 +02:00			`session = self.connect()`
			`link = self.search(session)`

			`return link`
adding main file 2021-08-23 12:03:00 +02:00
add save and message error 2021-08-23 21:04:31 +02:00			`def save(elements):`
			`taille = len(elements)`
			`if taille == 0:`
			`print("Aucun élément n'a été trouvé avec la recherche.")`
			`return`
			`filename = "results.csv"`
			`with open(filename, "w") as f:`
			`f.write(";".join(list(elements[0].keys())[:-1]))`
			`f.write("\n")`
			`for element in elements:`
			`if element != "linkParams":`
			`print(";".join(list(element.values())[:-1]))`
			`f.write(";".join(list(element.values())[:-1]))`
			`f.write("\n")`
			`print(f"{taille} éléments ont étés enrengistés dans le fichier {filename}.")`


adding main file 2021-08-23 12:03:00 +02:00			`if __name__ == "__main__":`
			`argv = argv[1:]`
adding parser 2021-08-23 18:19:04 +02:00			`if len(argv) >= 3 and len(argv) <= 4:`
add save and message error 2021-08-23 21:04:31 +02:00			`save(Scraper(*argv).work())`
adding main file 2021-08-23 12:03:00 +02:00			`else:`
add verbose option 2021-08-23 12:22:31 +02:00			`try:`
			`load_dotenv()`
			`try:`
			`debug = environ["DEBUG_MOBILISM"].lower() in ("yes", "true", "1")`
			`except:`
			`debug = False`
add save and message error 2021-08-23 21:04:31 +02:00			`save(Scraper(environ["PSEUDO_MOBILISM"], environ["PASSWORD_MOBILISM"], environ["APP_MOBILISM"], debug).work())`
big enhancements 2021-08-23 13:56:36 +02:00			`except KeyError:`
add verbose option 2021-08-23 12:22:31 +02:00			`print('Please fill in the username and password (with ") by args or with .env file.')`