PostgreSQL La base de donnees la plus sophistiquee au monde.

Forums PostgreSQL.fr

Le forum officiel de la communauté francophone de PostgreSQL

Vous n'êtes pas identifié(e).

#1 22/10/2010 16:51:07

dbigand
Membre

Besoin d'aide

Bonjour,

J'utilise interspire email marketer avec postgresql. Mais je trouve qu'il rame pas mal.

J'ai une machine assez puissante avec 12 Gb de mémoire.

Mais le temps de certaines requete est impressionnant.

En voila un exemple :
   

SELECT
 c.fieldid AS fieldid,
 c.name AS fieldname,
 c.fieldtype AS fieldtype,
 c.fieldsettings AS fieldsettings,
 d.subscriberid AS subscriberid,
 d.data AS data
 FROM
 email_customfields AS c
 JOIN email_customfield_lists AS cl
 ON (
 c.fieldid = cl.fieldid
 AND cl.listid IN (1)
 )
 JOIN email_list_subscribers AS ls
 ON (
 cl.listid = ls.listid
 AND ls.listid IN (1)
 AND ls.subscriberid IN

 )
 JOIN email_subscribers_data AS d
 ON (
 ls.subscriberid = d.subscriberid
 AND cl.fieldid = d.fieldid
 AND c.fieldid = d.fieldid
 )
 WHERE
 (c.name IN ('First Name','Last Clicked Mail','Last Name','Last Open Mail','Mobile','Postal/Zip Code') OR c.fieldid IN
  (2,3))
 AND d.subscriberid IN

 ) UNION (
 SELECT
 c.fieldid AS fieldid,
 c.name AS fieldname,
 c.fieldtype AS fieldtype,
 c.fieldsettings AS fieldsettings,
 ls.subscriberid AS subscriberid,
 c.defaultvalue AS data
 FROM
 email_customfields AS c
 JOIN email_customfield_lists AS cl
 ON (
 c.fieldid = cl.fieldid
 AND cl.listid IN (1)
 )
 JOIN email_list_subscribers ls
 ON (
 cl.listid = ls.listid
 AND ls.listid IN (1)
 AND ls.subscriberid IN

 )
 LEFT JOIN email_subscribers_data d
 ON (
 ls.subscriberid = d.subscriberid
 AND c.fieldid = d.fieldid
 )
 WHERE
 (c.name IN ('First Name','Last Clicked Mail','Last Name','Last Open Mail','Mobile','Postal/Zip Code') OR c.fieldid IN
  (2,3))
 AND d.subscriberid IS null)

Et le résultat de l'explain :

 Unique  (cost=22154.74..22162.34 rows=434 width=120) (actual time=338.186..339.659 rows=3000 loops=1)
   ->  Sort  (cost=22154.74..22155.83 rows=434 width=120) (actual time=338.183..338.484 rows=3000 loops=1)
         Sort Key: c.fieldid, c.name, c.fieldtype, c.fieldsettings, d.subscriberid, d.data
         Sort Method:  quicksort  Memory: 706kB
         ->  Append  (cost=2053.96..22135.73 rows=434 width=120) (actual time=1.256..19.985 rows=3000 loops=1)
               ->  Nested Loop  (cost=2053.96..11065.70 rows=57 width=120) (actual time=1.256..9.026 rows=7 loops=1)
                     ->  Nested Loop  (cost=2053.96..3701.37 rows=754 width=113) (actual time=1.116..2.386 rows=3000 loops=1)
                           ->  Bitmap Heap Scan on email_list_subscribers ls  (cost=2050.95..3683.28 rows=377 width=8) (actual time=1.085..1.166 rows=500 loops=1)
                                 Recheck Cond: ((subscriberid = ANY ('{1634516,1634515,1634514,1634513,1634512,1634511,1634510,1634509,1634508,1634507,1634506,1634505,1634504,1634503,1634502,1634501,1634500,1634499,1634498,1634497,1634496,1634495,1634494,1634493,1634492,1634491,1634490,1634489,1634488,1634487,1634
}'::integer[])) AND (listid = 1))
                                 ->  Bitmap Index Scan on email_list_subscribers_sub_list_idx  (cost=0.00..2050.86 rows=377 width=0) (actual time=1.080..1.080 rows=500 loops=1)
                                       Index Cond: ((subscriberid = ANY ('{}'::integer[])) AND (listid = 1))
                           ->  Materialize  (cost=3.01..3.03 rows=2 width=113) (actual time=0.000..0.001 rows=6 loops=500)
                                 ->  Hash Join  (cost=1.38..3.00 rows=2 width=113) (actual time=0.028..0.035 rows=6 loops=1)
                                       Hash Cond: (cl.fieldid = c.fieldid)
                                       ->  Seq Scan on email_customfield_lists cl  (cost=0.00..1.59 rows=6 width=8) (actual time=0.008..0.010 rows=6 loops=1)
                                             Filter: (listid = 1)
                                       ->  Hash  (cost=1.30..1.30 rows=6 width=105) (actual time=0.015..0.015 rows=6 loops=1)
                                             ->  Seq Scan on email_customfields c  (cost=0.00..1.30 rows=6 width=105) (actual time=0.004..0.011 rows=6 loops=1)
                                                   Filter: (((name)::text = ANY ('{"First Name","Last Clicked Mail","Last Name","Last Open Mail",Mobile,"Postal/Zip Code"}'::text[])) OR (fieldid = ANY ('{2,3}'::integer[])))
                     ->  Index Scan using email_subscribers_data_subscriber_field_idx on email_subscribers_data d  (cost=0.00..9.74 rows=2 width=19) (actual time=0.002..0.002 rows=0 loops=3000)
                           Index Cond: ((d.subscriberid = ls.subscriberid) AND (d.fieldid = c.fieldid))
               ->  Subquery Scan "*SELECT* 2"  (cost=2053.96..11069.47 rows=377 width=110) (actual time=1.078..10.536 rows=2993 loops=1)
                     ->  Nested Loop Left Join  (cost=2053.96..11065.70 rows=377 width=110) (actual time=1.077..9.666 rows=2993 loops=1)
                           Filter: (d.subscriberid IS NULL)
                           ->  Nested Loop  (cost=2053.96..3701.37 rows=754 width=110) (actual time=1.073..2.302 rows=3000 loops=1)
                                 ->  Bitmap Heap Scan on email_list_subscribers ls  (cost=2050.95..3683.28 rows=377 width=8) (actual time=1.048..1.117 rows=500 loops=1)
                                       Recheck Cond: ((subscriberid = ANY ('{}'::integer[])) AND (listid = 1))
                                       ->  Bitmap Index Scan on email_list_subscribers_sub_list_idx  (cost=0.00..2050.86 rows=377 width=0) (actual time=1.045..1.045 rows=500 loops=1)
                                             Index Cond: ((subscriberid = ANY ('{}'::integer[])) AND (listid = 1))
                                 ->  Materialize  (cost=3.01..3.03 rows=2 width=110) (actual time=0.000..0.001 rows=6 loops=500)
                                       ->  Hash Join  (cost=1.38..3.00 rows=2 width=110) (actual time=0.022..0.027 rows=6 loops=1)
                                             Hash Cond: (cl.fieldid = c.fieldid)
                                             ->  Seq Scan on email_customfield_lists cl  (cost=0.00..1.59 rows=6 width=8) (actual time=0.005..0.007 rows=6 loops=1)
                                                   Filter: (listid = 1)
                                             ->  Hash  (cost=1.30..1.30 rows=6 width=106) (actual time=0.012..0.012 rows=6 loops=1)
                                                   ->  Seq Scan on email_customfields c  (cost=0.00..1.30 rows=6 width=106) (actual time=0.003..0.009 rows=6 loops=1)
                                                         Filter: (((name)::text = ANY ('{"First Name","Last Clicked Mail","Last Name","Last Open Mail",Mobile,"Postal/Zip Code"}'::text[])) OR (fieldid = ANY ('{2,3}'::integer[])))
                           ->  Index Scan using email_subscribers_data_subscriber_field_idx on email_subscribers_data d  (cost=0.00..9.74 rows=2 width=8) (actual time=0.002..0.002 rows=0 loops=3000)
                                 Index Cond: ((ls.subscriberid = d.subscriberid) AND (c.fieldid = d.fieldid))
 Total runtime: 339.942 ms
(40 rows)

J'ai vérifier les différents index utilisé et tout à l'ai prix en compte.

Mais il y a 2 moments ou il fait un "Bitmap Index Scan" et ces 2 passages sont très long, de plus il y a pluiseurs recheck que je ne comprend pas.

Merci de votre aide précieuse.

Cdlt

Daivd

Hors ligne

#2 22/10/2010 17:17:00

Marc Cousin
Membre

Re : Besoin d'aide

Ce qui semble prendre du temps, c'est l'étape UNIQUE, du au 'UNION'.

Pouvez vous :
- Essayer la même requête avec un UNION ALL
- Essayer la même requête, à nouveau avec le UNION, mais sans la colonne data.

Dans les deux cas, pouvez vous me donner les temps d'exécution ?


Marc.

Hors ligne

#3 22/10/2010 18:07:01

dbigand
Membre

Re : Besoin d'aide

Ha ouai!!! énorme

Le temps est passé à 20ms avec le union all.

Par contre, la suppression de la colonne data dans la partie select na pas d'effet. 340ms

c'est donc la déduplication des valeurs qui poserait problème? y a t'il un moyen d'optimiser ce traitement ?

Cdlt

David

Hors ligne

#4 22/10/2010 18:16:16

Marc Cousin
Membre

Re : Besoin d'aide

Y a t'il 'besoin' de dédupliquer les données ? Pas sur la requête en tout cas, d'après le plan.

Pour la rendre plus rapide, il faut limiter le nombre de champs sur lesquels dédupliquer (pour limiter la quantité de tri).

300ms pour 3000 enregistrements, c'est un chiffre un peu énorme. Il n'y aurait pas un des champs qui serait très gros ? Ou des types particuliers ?

=> Quelle est le type de chacun des champs retournés ?


Marc.

Hors ligne

#5 22/10/2010 18:28:48

dbigand
Membre

Re : Besoin d'aide

Voila les types de champs

c.fieldid INTEGER
c.name VarCHAR
c.fieldtype varchar(100)
c.fieldsettings text
d.subscriberid integer
data text

je suis étonné de trouver un varchar sans taille, ainsi que des text field pour les paramétres

Est ce que de passer à des varchar avec des tailles défini pourrait aider ?

Cdlt

David

Hors ligne

#6 22/10/2010 18:37:36

dbigand
Membre

Re : Besoin d'aide

le champ fieldsettings a besoin d' une longeur de 9000 char pour passer

Hors ligne

#7 22/10/2010 20:00:13

Marc Cousin
Membre

Re : Besoin d'aide

Alors c'est probablement fieldsettings qui pose problème (long à trier).

Pouvez vous tester la requête sans lui, pour voir ? (nous trouverons une solution au problème une fois que nous l'aurons diagnostiqué correctement smile )

Sinon, oui, la taille est optionnelle sur les varchar sous PostgreSQL. Si vous ne précisez pas de taille, ça veut dire qu'il n'y a pas de limite (enfin si, à 1Go).

Passer à une taille définie ne changera (heureusement) rien: les chaînes ne prennent que leur taille réelle. La taille n'est rien d'autre qu'une contrainte.


Marc.

Hors ligne

Pied de page des forums