Модуль Simple Pars

  • Автор темы Автор темы Den_Volt
  • Дата начала Дата начала
SimplePars - Универсальный парсер v4.7_stable Nulled
Обновление 4.7_stable

Исправлены все известные недочеты.

 
Всем доброго! Первый раз сталкиваюсь с подобным, блок с категориями в xml файле находится не в начале файла, а в конце.
При запуске обработчика он их не видит:
МОДУЛЬ SimplePars НЕ СМОГ РАЗОБРАТЬ СТРУКТУРУ КАТЕГОРИЙ ПО ВАШИМ НАСТРОЙКАМ.
Если перенести вручную в начало файла все нормально, но для автоматического обновления такое решение не вариант.
Может кто сталкивался?

Обновление SimplePars v4.9 stable
В этой версии исправление недочетов, и то парочку.
И добавлена возможность в редакторе товаров преобразовать webp в png

 
Последнее редактирование:
Если перенести вручную в начало файла все нормально, но для автоматического обновления такое решение не вариант.
Может кто сталкивался?
Написать скрипт который будет менять местами нулевые места. И это в принципе правильно что оно не работает. Ведь в товаре есть привязка к категориям и если они в конце обработки, то как система должна понимать что ставить?
 
Написать скрипт который будет менять местами нулевые места. И это в принципе правильно что оно не работает. Ведь в товаре есть привязка к категориям и если они в конце обработки, то как система должна понимать что ставить?

CAPAXA Я думал, что в обработчике xml это не имеет значения, ведь мы указываем конкретные границы товара и категорий.
 
Ну тогда считай это не баг а фича

Как раз наоборот считаю это багом, а не фичей. Понимаю, что для большинства людей читать сверху вниз и слева направо это норма, но не для скриптов, где ты указываешь где и что нужно найти и взять).
 
Как раз наоборот считаю это багом, а не фичей. Понимаю, что для большинства людей читать сверху вниз и слева направо это норма, но не для скриптов, где ты указываешь где и что нужно найти и взять).
Это сделано принципиально. Потому что иначе, при большем файле импорта, скрипт захлебнется.
А так, сначала распарсились категории, потом товары, в которых эти категории и используются.
 
Это сделано принципиально. Потому что иначе, при большем файле импорта, скрипт захлебнется.
А так, сначала распарсились категории, потом товары, в которых эти категории и используются.

Логично, огорчает) что за три года с момента выхода никто не поднимал этот вопрос в теме поддержки и автор не придумал какую либо фичу.
 
у меня вот назрел ввопрос, а что будет лучше автоматическая обработка прайс листов или симпл парс? для загрузки с сайтов партнеров товары по технике
 
Не знаю как, но после импорта модуль ломает
system/storage/modification/admin/controller/extension/installer.php
лечится перезаливом файла из бекапа
 
При установке Этот каталог inst.php не доступен для записи!
Файлу нужно 666 дать?

Upd - решено
 
Последнее редактирование:
Кто ни будь парсил ua.iherb.com ? Год назад настраивал парсер все было норм сейчас какая то защита может есть у кого готовый проект или опыт настройки подскажите как обойти защиту?
Вот такую фигню получаю при попытке загрузить страницу
Код:
#[url]https://ua.iherb.com/pr/california-gold-nutrition-vitamin-d3-50-mcg-2-000-iu-360-fish-gelatin-softgels/77549[/url]
HTTP/1.1 403 Forbidden
Date: Tue, 11 Apr 2023 14:40:21 GMT
Content-Type: text/html
Transfer-Encoding: chunked
Connection: keep-alive
Set-Cookie: _pxhd=-KUhBxm6isAXx3zO3jsgMTqeJCPRKq-yxp3lMvpDMjisv/8nSda5ynWMpm4077zibDf2I0apOQXxX22ocZrb3g==:Sl77WZkG80PxgXzpc9WgZdPCRpK05KXCmXvvHZdTBXZTytdZUWmuQMjaZQu2YNkj/Ke3f2jayiwB8hl8d5dO8uCpYCOwzsn//5t6-10RQsw=; path=/;
Set-Cookie: __cf_bm=4sEExZg.50xn7zizezeVTkhkaWT7XFAhLU2uI3RBXM8-1681224021-0-AXasulONwVlduGBwmtETdXCM4ev2x0KkGQbWwYFiKLPe5RgpJ8leZgw80/xYtvw9JisnAce1eSKIGkOZzW4gWXgopNrwX82guKr+LQ8+crV6; path=/; expires=Tue, 11-Apr-23 15:10:21 GMT; domain=.iherb.com; HttpOnly; Secure; SameSite=None
Vary: Accept-Encoding
Server: cloudflare
CF-RAY: 7b63fbf83e9806c4-AMS
Content-Encoding: gzip
alt-svc: h3=":443"; ma=86400, h3-29=":443"; ma=86400
 
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <title>Access to this page has been denied.</title>
    <link href="https://fonts.googleapis.com/css?family=Open+Sans:300" rel="stylesheet">
    <style>
        html, body {
            margin: 0;
            padding: 0;
            font-family: 'Open Sans', sans-serif;
            color: #000;
        }
 
        a {
            color: #c5c5c5;
            text-decoration: none;
        }
 
        .container {
            align-items: center;
            display: flex;
            flex: 1;
            justify-content: space-between;
            flex-direction: column;
            height: 100%;
        }
 
        .container > div {
            width: 100%;
            display: flex;
            justify-content: center;
        }
 
        .container > div > div {
            display: flex;
            width: 80%;
        }
 
        .customer-logo-wrapper {
            padding-top: 2rem;
            flex-grow: 0;
            background-color: #fff;
            visibility: visible;
        }
 
        .customer-logo {
            border-bottom: 1px solid #000;
        }
 
        .customer-logo > img {
            padding-bottom: 1rem;
            max-height: 50px;
            max-width: 100%;
        }
 
        .page-title-wrapper {
            flex-grow: 2;
        }
 
        .page-title {
            flex-direction: column-reverse;
        }
 
        .content-wrapper {
            flex-grow: 5;
        }
 
        .content {
            flex-direction: column;
        }
 
        .page-footer-wrapper {
            align-items: center;
            flex-grow: 0.2;
            background-color: #000;
            color: #c5c5c5;
            font-size: 70%;
        }
 
        @media (min-width: 768px) {
            html, body {
                height: 100%;
            }
        }
    </style>
    <!-- Custom CSS -->
    
</head>
 
<body>
<section class="container">
    <div class="customer-logo-wrapper">
        <div class="customer-logo">
            <img src="https://s3.images-iherb.com/cms/logos/iHerb_Hero_Green_RGB.jpg" alt="Logo"/>
        </div>
    </div>
    <div class="page-title-wrapper">
        <div class="page-title">
            <h1>Please verify you are a human</h1>
        </div>
    </div>
    <div class="content-wrapper">
        <div class="content">
 
            <div id="px-captcha">
            </div>
            <p>
                Access to this page has been denied because we believe you are using automation tools to browse the
                website.
            </p>
            <p>
                This may happen as a result of the following:
            </p>
            <ul>
                <li>
                    Javascript is disabled or blocked by an extension (ad blockers for example)
                </li>
                <li>
                    Your browser does not support cookies
                </li>
            </ul>
            <p>
                Please make sure that Javascript and cookies are enabled on your browser and that you are not blocking
                them from loading.
            </p>
            <p>
                Reference ID: #c99a7f38-d876-11ed-b651-764d697a4471
            </p>
        </div>
    </div>
    <div class="page-footer-wrapper">
        <div class="page-footer">
            <p>
                Powered by
                <a href="https://www.perimeterx.com/whywasiblocked">PerimeterX</a>
                , Inc.
            </p>
        </div>
    </div>
</section>
<!-- Px -->
<script>
    window._pxAppId = 'PXVtidNbtC';
    window._pxJsClientSrc = '/VtidNbtC/init.js';
    window._pxFirstPartyEnabled = true;
    window._pxVid = '';
    window._pxUuid = 'c99a7f38-d876-11ed-b651-764d697a4471';
    window._pxHostUrl = '/VtidNbtC/xhr';
</script>
<script>
    var s = document.createElement('script');
    s.src = '/VtidNbtC/captcha/captcha.js?a=c&u=c99a7f38-d876-11ed-b651-764d697a4471&v=&m=0';
    var p = document.getElementsByTagName('head')[0];
    p.insertBefore(s, null);
    if (true) {
        s.onerror = function () {
            s = document.createElement('script');
            var suffixIndex = '/VtidNbtC/captcha/captcha.js?a=c&u=c99a7f38-d876-11ed-b651-764d697a4471&v=&m=0'.indexOf('captcha.js');
            var temperedBlockScript = '/VtidNbtC/captcha/captcha.js?a=c&u=c99a7f38-d876-11ed-b651-764d697a4471&v=&m=0'.substring(suffixIndex);
            s.src = '//captcha.px-cdn.net/PXVtidNbtC/' + temperedBlockScript;
            p.parentNode.insertBefore(s, p);
        };
    }
</script>
<!-- Custom Script -->
 
</body>
</html>
 
Сталкивался с похожей проблемой на другом сайте. Тоже думал что защита. Оказалось на сайте разместили рекламный баннер сверху, код которого мешал корректно парсить. Убрали банер все стало опять норм. Разбираться в чем проблема не пришлось.
 
Сталкивался с похожей проблемой на другом сайте. Тоже думал что защита. Оказалось на сайте разместили рекламный баннер сверху, код которого мешал корректно парсить. Убрали банер все стало опять норм. Разбираться в чем проблема не пришлось.

черным по белому, для особо одаренных написано:
"Access to this page has been denied because we believe you are using automation tools to browse the website."
гугл переводчик в помощь:
"Доступ к этой странице запрещен, поскольку мы считаем, что вы используете инструменты автоматизации для просмотра веб-сайта."
 
Кто ни будь парсил ua.iherb.com ? Год назад настраивал парсер все было норм сейчас какая то защита может есть у кого готовый проект или опыт настройки подскажите как обойти защиту?
Вот такую фигню получаю при попытке загрузить страницу
Код:
#[url]https://ua.iherb.com/pr/california-gold-nutrition-vitamin-d3-50-mcg-2-000-iu-360-fish-gelatin-softgels/77549[/url]
HTTP/1.1 403 Forbidden
Date: Tue, 11 Apr 2023 14:40:21 GMT
Content-Type: text/html
Transfer-Encoding: chunked
Connection: keep-alive
Set-Cookie: _pxhd=-KUhBxm6isAXx3zO3jsgMTqeJCPRKq-yxp3lMvpDMjisv/8nSda5ynWMpm4077zibDf2I0apOQXxX22ocZrb3g==:Sl77WZkG80PxgXzpc9WgZdPCRpK05KXCmXvvHZdTBXZTytdZUWmuQMjaZQu2YNkj/Ke3f2jayiwB8hl8d5dO8uCpYCOwzsn//5t6-10RQsw=; path=/;
Set-Cookie: __cf_bm=4sEExZg.50xn7zizezeVTkhkaWT7XFAhLU2uI3RBXM8-1681224021-0-AXasulONwVlduGBwmtETdXCM4ev2x0KkGQbWwYFiKLPe5RgpJ8leZgw80/xYtvw9JisnAce1eSKIGkOZzW4gWXgopNrwX82guKr+LQ8+crV6; path=/; expires=Tue, 11-Apr-23 15:10:21 GMT; domain=.iherb.com; HttpOnly; Secure; SameSite=None
Vary: Accept-Encoding
Server: cloudflare
CF-RAY: 7b63fbf83e9806c4-AMS
Content-Encoding: gzip
alt-svc: h3=":443"; ma=86400, h3-29=":443"; ma=86400
 
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <title>Access to this page has been denied.</title>
    <link href="https://fonts.googleapis.com/css?family=Open+Sans:300" rel="stylesheet">
    <style>
        html, body {
            margin: 0;
            padding: 0;
            font-family: 'Open Sans', sans-serif;
            color: #000;
        }
 
        a {
            color: #c5c5c5;
            text-decoration: none;
        }
 
        .container {
            align-items: center;
            display: flex;
            flex: 1;
            justify-content: space-between;
            flex-direction: column;
            height: 100%;
        }
 
        .container > div {
            width: 100%;
            display: flex;
            justify-content: center;
        }
 
        .container > div > div {
            display: flex;
            width: 80%;
        }
 
        .customer-logo-wrapper {
            padding-top: 2rem;
            flex-grow: 0;
            background-color: #fff;
            visibility: visible;
        }
 
        .customer-logo {
            border-bottom: 1px solid #000;
        }
 
        .customer-logo > img {
            padding-bottom: 1rem;
            max-height: 50px;
            max-width: 100%;
        }
 
        .page-title-wrapper {
            flex-grow: 2;
        }
 
        .page-title {
            flex-direction: column-reverse;
        }
 
        .content-wrapper {
            flex-grow: 5;
        }
 
        .content {
            flex-direction: column;
        }
 
        .page-footer-wrapper {
            align-items: center;
            flex-grow: 0.2;
            background-color: #000;
            color: #c5c5c5;
            font-size: 70%;
        }
 
        @media (min-width: 768px) {
            html, body {
                height: 100%;
            }
        }
    </style>
    <!-- Custom CSS -->
   
</head>
 
<body>
<section class="container">
    <div class="customer-logo-wrapper">
        <div class="customer-logo">
            <img src="https://s3.images-iherb.com/cms/logos/iHerb_Hero_Green_RGB.jpg" alt="Logo"/>
        </div>
    </div>
    <div class="page-title-wrapper">
        <div class="page-title">
            <h1>Please verify you are a human</h1>
        </div>
    </div>
    <div class="content-wrapper">
        <div class="content">
 
            <div id="px-captcha">
            </div>
            <p>
                Access to this page has been denied because we believe you are using automation tools to browse the
                website.
            </p>
            <p>
                This may happen as a result of the following:
            </p>
            <ul>
                <li>
                    Javascript is disabled or blocked by an extension (ad blockers for example)
                </li>
                <li>
                    Your browser does not support cookies
                </li>
            </ul>
            <p>
                Please make sure that Javascript and cookies are enabled on your browser and that you are not blocking
                them from loading.
            </p>
            <p>
                Reference ID: #c99a7f38-d876-11ed-b651-764d697a4471
            </p>
        </div>
    </div>
    <div class="page-footer-wrapper">
        <div class="page-footer">
            <p>
                Powered by
                <a href="https://www.perimeterx.com/whywasiblocked">PerimeterX</a>
                , Inc.
            </p>
        </div>
    </div>
</section>
<!-- Px -->
<script>
    window._pxAppId = 'PXVtidNbtC';
    window._pxJsClientSrc = '/VtidNbtC/init.js';
    window._pxFirstPartyEnabled = true;
    window._pxVid = '';
    window._pxUuid = 'c99a7f38-d876-11ed-b651-764d697a4471';
    window._pxHostUrl = '/VtidNbtC/xhr';
</script>
<script>
    var s = document.createElement('script');
    s.src = '/VtidNbtC/captcha/captcha.js?a=c&u=c99a7f38-d876-11ed-b651-764d697a4471&v=&m=0';
    var p = document.getElementsByTagName('head')[0];
    p.insertBefore(s, null);
    if (true) {
        s.onerror = function () {
            s = document.createElement('script');
            var suffixIndex = '/VtidNbtC/captcha/captcha.js?a=c&u=c99a7f38-d876-11ed-b651-764d697a4471&v=&m=0'.indexOf('captcha.js');
            var temperedBlockScript = '/VtidNbtC/captcha/captcha.js?a=c&u=c99a7f38-d876-11ed-b651-764d697a4471&v=&m=0'.substring(suffixIndex);
            s.src = '//captcha.px-cdn.net/PXVtidNbtC/' + temperedBlockScript;
            p.parentNode.insertBefore(s, p);
        };
    }
</script>
<!-- Custom Script -->
 
</body>
</html>
На сайте защита типа cloudflare. Столкнулся вчера с такой же проблемой. Есть решение как обойти защиту ?
 
Назад
Верх