X-Git-Url: https://bilbo.iut-bm.univ-fcomte.fr/and/gitweb/hdrcouchot.git/blobdiff_plain/596713f36ad5e56e5860473b80cfcd4821a616c8..02fd942d6a30fe7197b732c94450ca466b7a49f5:/ahmad.tex?ds=sidebyside

diff --git a/ahmad.tex b/ahmad.tex
index f1612a8..1b92dbc 100644
--- a/ahmad.tex
+++ b/ahmad.tex
@@ -1,51 +1,221 @@
-En Ã©tudiant le watermarking,
+En Ã©tudiant les schÃ©mas de watermarking,
 nous avons constatÃ© que trÃ¨s peu de travaux ciblaient les documents PDF
 qui reprÃ©sentent cependant une part non anecdotique des donnÃ©es
 Ã©changÃ©es en ligne.
+Parmi ces travaux, \cite{PD2008} propose la modification du nombre 
+d'espaces entre les mots ou entre les paragraphes.
+Similairement, les auteurs  de~\cite{DBLP:journals/sigpro/LeeT10}
+ajoutent des caractÃ¨res invisibles dans le document.
+En supprimant ces espaces ou caractÃ¨res invisibles, la marque s'enlÃ¨ve
+facilement.
+Dans~\cite{PD2008}, les auteurs modifient de maniÃ¨re imperceptible
+le positionnements des caractÃ¨res. D'autres Ã©lÃ©ments de positionnement
+sont intÃ©grÃ©s dans~\cite{WT08}.
+Une attaque qui modifierait  alÃ©atoirement de maniÃ¨re faible ces positions
+ dÃ©truirait la marque dans les deux cas.
+La quantification (au sens du traitement du signal) est une rÃ©ponse
+Ã  ces attaques: des positions modifiÃ©es de maniÃ¨re mal intentionnÃ©e  
+peuvent grÃ¢ce cette dÃ©marche Ãªtre rapprochÃ©es (abstraites) en des positions
+prÃ©Ã©tablies et conserver ainsi leur information et donc la marque.
+STDM~\cite{CW01} est une instance de ces schÃ©mas de marquage.
+
+Ce chapitre prÃ©sente une application de STDM au marquage de documents PDFs.
+\JFC{annonce du plan}
+
+\section{Rappels sur la Spread Transform Dither Modulation}
+\label{sec:STDM}
+Les paramÃ¨tres de ce schÃ©ma sont
+\begin{itemize}
+\item le facteur de quantification $\Delta$ qui est un rÃ©el positif; plus $\Delta$
+est grand, plus la distorsion peut Ãªtre importante;
+\item le niveau d'indÃ©cision  $d_0$ qui est un rÃ©el dans
+$[-\dfrac{\Delta}{2},\dfrac{\Delta}{2}]$; plus ce nombre a une valeur absolue
+Ã©levÃ©e, plus les erreurs peuvent Ãªtre corrigÃ©es;
+on dÃ©finit $d_1$ par 
+$$d_1 = \begin{cases} 
+  d_0 + \Delta/2, & \textrm{ si }~~d_0<0 \\  
+  d_0 - \Delta/2, & \textrm{ sinon } 
+\end{cases}
+$$
+\item un nombre $L$ d'Ã©lÃ©ments dans lequel chaque bit de la marque 
+  est embarquÃ©;
+\item un vecteur $p$ de projection de taille $L$. 
+
+\end{itemize}
+
+Soit donc $x$ un vecteur de taille $L$ dans lequel on souhaite embarquer 
+le bit $m\in\{0,1\}$. 
+Ce vecteur est remplacÃ© par $x'$ dÃ©fini par 
+ 
+\begin{equation}\label{eq:stdm}
+x' = f(x,m) = x+ ((\lfloor(\frac{(x^T p) -d_m}{\Delta})\rfloor\Delta +d_m )~ - x^T p)p
+\end{equation}
+
+Avec les mÃªmes paramÃ¨tres $\Delta$, $d_0$ , $L$ et $p$ le message 
+$\hat{m}$ extrait de 
+$x'$ de taille $L$ est dÃ©fini par:
+\begin{equation}
+\hat{m} = arg \min_{ m \in \{0, 1\}} \mid x'^T p - f(x,m) \mid
+\label{eq:stdm:ext}
+\end{equation}
+
+Les auteurs de~\cite{CW01} ont montrÃ© que la variance de l'erreur 
+est Ã©gale Ã  $D_s = \Delta^2/12L$ 
+lorsque chacun des $L$ Ã©lÃ©ments de $x$ suit une distribution uniforme 
+$U(\Delta)$. 
+Tous les Ã©lÃ©ments sont en place pour embarquer une marque 
+dans un fichier PDF selon le schÃ©ma STDM.
+
+\section{Application au marquage de documents PDF}
+
+On dÃ©taille successivement comment insÃ©rer une marque dans un document PDF, 
+puis comment l'extraire.
+
+\subsection{Insertion de la marque}
+
+On cherche Ã  ajouter Ã  un document PDF une marque $m$ de $k$ bits 
+dÃ©jÃ  codÃ©e (cryptÃ©e, correction d'erreurs incluse). 
+L'insertion de celle-ci dans le document s'effectue 
+en quatre Ã©tapes.
+
+On considÃ¨re comme fixÃ©s les paramÃ¨tres  
+$\Delta$,  $d_0$ , $L$ et la maniÃ¨re de construire le vecteur $p$ 
+pour ce $L$ donnÃ©. 
+
+
+\begin{enumerate}
+\item Le vecteur hÃ´te $x$ de taille $N$ 
+  est constituÃ© de l'abscisse (flottante) 
+  de chaque caractÃ¨re rencontrÃ© dans le document PDF. 
+  La dimension $L$ est calculÃ©e comme la partie entiÃ¨re de $N/k$.
+
+\item Un gÃ©nÃ©rateur pseudo alÃ©atoire (initialisÃ© par une clef) 
+construit $k$ ensembles $M_1$, \ldots, $M_k$ 
+de taille $L$ mutuellement disjoints dans $[1,N]$. Ainsi 
+$\bigcup_{1\le i \le k} M_i \subseteq [N]$. 
+
+
+\item Pour chacun des ensembles $M_i$, $ 1 \le i \le k$, 
+  de l'Ã©tape prÃ©cÃ©dente,  le vecteur $\dot{x} = (x_{j_1}, \ldots ,x_{j_L})$,
+  est construit oÃ¹ $\{j_1, \ldots, j_L\} = M_i$.
+  Le vecteur $\dot{x'} = f(\dot{x},m_i)$ est
+  construit selon l'Ã©quation~(\ref{eq:stdm}).
+  Dans $x$, chacun des $x_{j_1}, \ldots, x_{j_L}$ est remplacÃ© par 
+  $\dot{x'}_{j_1}, \ldots, \dot{x'}_{j_L}$.
+
+\item L'abscisse de chaque caractÃ¨re est ainsi redÃ©fini 
+  selon le nouveau vecteur de positions ${x'}$. 
+\end{enumerate}
+
+Voyons comment extraire une marque d'une document PDF.
+
+\subsection{Extraction de la marque}
+
+On considÃ¨re comme connue la taille de la marque: c'est $k$ bits.
+Les paramÃ¨tres $\Delta$,  $d_0$ et la maniÃ¨re de construire 
+$p$ en fonction de $L$ sont les mÃªmes qu'Ã  l'Ã©tape prÃ©cÃ©dente d'insertion de 
+marque.
+
+\begin{enumerate}
+\item on rÃ©cupÃ¨re le vecteur $x'$ (de taille $N$ lui aussi) des abscisse des
+  caractÃ¨res du document PDF comme dans la phase d'insertion. 
+  la valeur de $L$ est dÃ©finie comme prÃ©cÃ©demment.
+
+\item le mÃªme gÃ©nÃ©rateur pseudo alÃ©atoire (initialisÃ© avec la mÃªme clef) 
+construit les $k$ mÃªmes ensembles $M_1$, \ldots, $M_k$ 
+de taille $L$ mutuellement disjoints dans $[1,N]$. 
+
+\item Pour chacun des ensembles $M_i$, $ 1 \le i \le k$, 
+  de l'Ã©tape prÃ©cÃ©dente,  le vecteur $\dot{x'} = (x'_{j_1}, \ldots, x'_{j_L})$,
+  est construit oÃ¹ $\{j_1, \ldots, j_L\} = M_i$.
+  Le bit $\hat{m}_i$  est dÃ©fini selon l'Ã©quation~(\ref{eq:stdm:ext})
+  en remplaÃ§ant $x'$ par $\dot{x'}$ .
+\end{enumerate}
+
+\section{ExpÃ©rimentations }
+Le schÃ©ma de marquage est paramÃ©trÃ© par $\Delta$,  $d_0$ et la maniÃ¨re de construire le vecteur $p$ pour une taille $L$. 
+Les travaux rÃ©alisÃ©s se sont focalisÃ©s sur l'influence du paramÃ¨tre 
+$D_S = \frac{\Delta^2}{12L}$ dans l'algorithme en satisfaisant 
+les deux contraintes antagonistes
+de fournir une marque suffisamment robuste
+et suffisamment transparente.
+On cherche deux rÃ©els $a$ et $b$   tels que
+$a$ et $b$ correspondent respectivement 
+au seuil maximum pour Ãªtre transparent et 
+au seuil minimum pour Ãªtre robuste. 
+Les Ã©tudes de perceptibilitÃ© doivent permettre de dÃ©terminer $a$ tandis 
+que celles sur la robustesse devront fixer le seuil $b$.
+Finalement, les contraintes prÃ©cÃ©dentes seront  satisfaites si et seulement si  
+$a > b$ et $D_s \in [b,a]$.
+
+Concernant la transparence, 
+les expÃ©riences prÃ©sentÃ©es dans l'article~\cite{BDCC16} ont consistÃ© en 
+choisir un texte d'un nombre fixe de caractÃ¨res $n$
+dans lequel doit Ãªtre embarquÃ© une marque de taille fixe $k$.
+En faisant varier la valeur de $\Delta$, nous avons remarquÃ© que la 
+valeur $a= 0,01335$ est le seuil au delÃ  duquel il est visuellement 
+possible de remarquer une diffÃ©rence entre le document original 
+et le document marquÃ©.
+
+Il nous reste Ã  dÃ©tailler les expÃ©riences d'Ã©tude de robustesse de la dÃ©marche.
+Comme dans l'Ã©valuation de la transparence, il s'est agit de faire 
+varier le paramÃ¨tre  $\Delta$.
+Pour chacune de ces valeurs, le document a Ã©tÃ© altÃ©rÃ© selon 
+un flou gaussien (de paramÃ¨tre 0,1 et 0,25)  
+et une attaque de type poivre et sel (de paramÃ¨tre 0,1 et 0,25 aussi).
+Le rapport entre le nombre de bits erronÃ©s par rapport au nombre total 
+de bits (nommÃ© BER ci-aprÃ¨s) aprÃ¨s l'extraction du message est alors calculÃ©. 
+Le facteur de quantification a Ã©tÃ© choisi entre 0.1 et 10. 
+L'expÃ©rience a Ã©tÃ© rÃ©pÃ©tÃ©e 500 fois et les moyennes sont reprÃ©sentÃ©es 
+Ã  la figure~\ref{fig:pdf:atq:ber}.
+Sur cette figure, on constate que pour peu que la quantification $\Delta$
+soit supÃ©rieure Ã  1,  le taux d'erreur est infÃ©rieur Ã  12,5\%. Ce taux peut 
+Ãªtre corrigÃ© par un code correcteur usuel.
+Avec les paramÃ¨tres de l'expÃ©rimentation, cela revient Ã  considÃ©rer un seuil 
+$b=0,00214$. 
+Ces expÃ©riences ont ainsi pu valider l'existence de seuils de distorsion
+permettant d'avoir une mÃ©thode Ã  la fois robuste et transparente.
+
+
+
+\begin{figure}[ht]
+\begin{center}
+\begin{tikzpicture}
+
+        \begin{axis}[%
+            axis x line=bottom,
+            axis y line=left,
+            xlabel=$\Delta$,
+            ylabel=$BER~(\%)$,
+width=0.66\textwidth,
+            legend pos=north east]
+            \addplot[mark=none, dashed, red,thick] coordinates {(0.1, 13.8742) (0.5, 12.8721) (1, 8.4680) (1.1, 7.3940) (1.2, 6.5020) (1.3, 5.7960) (1.4, 4.9580) (1.5, 4.1180) (1.6, 3.8080) (1.7, 3.2580) (1.8, 2.8320) (1.9, 2.5000) (2, 2.2100) (2.1, 2.0420) (2.2, 1.8120) (2.3, 1.6080) (2.4, 1.4040) (2.5, 1.3860) (3, 1.1100) (5, 1) (10, 1)};
+
+ \addplot[mark=none, dotted, green,thick] coordinates {(0.1, 10.3501) (0.5, 7.1) (1, 4.7420) (1.1, 4.0580) (1.2, 3.3620) (1.3, 2.8260) (1.4, 2.3900) (1.5, 2.1220) (1.6, 1.9260) (1.7, 1.6540) (1.8, 1.4460) (1.9, 1.3680) (2, 1.3400) (2.1, 1.2460) (2.2, 1.1420) (2.3, 1.0920) (2.4, 1.0600) (2.5, 1.0460) (3, 1.0100) (5, 1) (10, 1)};
+
+ \addplot[mark=none, dashdotted, blue,thick] coordinates {(0.1, 15.3222) (0.5, 13) (1, 11.1560) (1.1, 10.2920) (1.2, 9.8520) (1.3, 8.7860) (1.4, 8.3960) (1.5, 7.3480) (1.6, 7.0880) (1.7, 6.0940) (1.8, 5.2100) (1.9, 4.8860) (2, 4.5940) (2.1, 4.0140) (2.2, 3.6060) (2.3, 3.3520) (2.4, 2.9300) (2.5, 2.6140) (3, 1.7000) (5, 1.0140) (10, 1)};
+
+ \addplot[mark=none, dash pattern=on 10pt off 2pt on 5pt off 6pt, black,thick] coordinates {(0.1, 13) (0.5, 10.7) (1, 9.3340) (1.1, 8.7580) (1.2, 7.7080) (1.3, 6.7580) (1.4, 5.9260) (1.5, 5.4320) (1.6, 4.7260) (1.7, 4.3020) (1.8, 3.6200) (1.9, 3.1380) (2, 2.9920) (2.1, 2.5780) (2.2, 2.4340) (2.3, 2.1240) (2.4, 1.8760) (2.5, 1.7386) (3, 1.2880) (5, 1) (10, 1)};
+
+            \legend{$Gaussian (0.1)$,$Salt\&pepper (0.1)$,$Gaussian (0.25)$,$Salt\&pepper (0.25)$};
+        \end{axis}
+    \end{tikzpicture}
+\\
+\end{center}
+\caption{ReprÃ©sentation du BER pour des attaques de type flou gaussien et
+poivre et sel}\label{fig:pdf:atq:ber}
+\end{figure}
+
+
+\section{Conclusion}\label{pdf:s:conclusion}
+Ce travail a prÃ©sentÃ© une dÃ©marche outillÃ©e
+basÃ©e sur la Spread Transform Dither Modulation 
+permettant d'embarquer une marque dans un document PDF.
+Les Ã©lÃ©ments modifiÃ©s sont les abscisses des caractÃ¨res prÃ©sents 
+dans le document.
+
+Deux des propriÃ©tÃ©s essentielles des algorithmes de marquage ont Ã©tÃ© Ã©tudiÃ©es:
+la transparence et la robustesse. La notion d'intervalle de distorsion 
+acceptable a Ã©tÃ© dÃ©finie et calculÃ©e sur un exemple jouet. 
 
 
-Several methods of  Steganography and Digital Watermarking  in PDF and
-Text documents have been proposed. In~\cite{PD2008}, a steganographic approach
-is   presented   by   hiding    information   using   inter-word   and
-inter-paragraph  spacing in  a  text. The  main  disadvantage of  this
-method is that the hidden message  can be destroyed by simply deleting
-some  spaces between  the  words  in the  stego  text.  In~\cite{PD2008},
-two
-different  algorithms   are  proposed  which  are   considered  as  an
-alternative  for the  original  TJ operator  method.  The TJ  operator
-displays  the  text  string  in  a  PDF  document,  allows  individual
-character positioning  and uses character and  word spacing parameters
-from  the  text  state.  The alternative  method  has  less  embedding
-capacity than the  original method. In~\cite{LLGC13}  an encryption technique
-is  proposed by  combining  the information  hiding  technique in  PDF
-documents and  the quadratic  residue as  basis and  then apply  it to
-copyright protection and  digital learning. The main  drawback of this
-method is  that the hidden  message can be  easly removed. In~\cite{DBLP:journals/sigpro/LeeT10}, an
-embedding method in  source programs using invisible  $ASCII$ codes is
-proposed. This method is very easy  to detect by simply extracting the
-modified  text  from  the  document,  converting  it  to  hexadecimal,
-extracting all  the inserted  invisible $ASCII$ characters,  and then,
-decoding the embedded message.  In~\cite{WT08}, a data hiding in PDF files and
-applications by  imperceivable modifications of PDF  object parameters
-is proposed. This  method serves to hide data  by slight modifications
-of the values  of various PDF object parameters such  as media box and
-text   matrices.  The   method  is   considered  to   have  sufficient
-transparency  while  its  main  drawback is  its  very  low  embedding
-capacity.
-
-Substitutive   Quantization  Index   Modulation  (QIM)   methods  were
-introduced  by Chen  and Wornell~\cite{CW01}. The  Spread Transform  Dither
-Modulation (STDM) is an implementation of  this scheme and it has been
-considered  robust  under  different watermarking
-attacks~\cite{DM10,WLSYNW13,CW99}.
-
-In this  paper, the goal  is to  present a blind  digital watermarking
-scheme for PDF documents based on  a variant of the Quantization Index
-Modulation   method   called   Spread  Transform   Dither   Modulation
-(STDM). The main difficulty in PDF  documents is to find a significant
-watermarking  space in  order  to  embed the  secret  message under  a
-sufficient Transparency-Robustness tradeoff. Our contribution consists
-in using  the $x$-coordinates of a  group of characters to  embed each
-bit  of  the  secret  message  while  choosing  the  appropriate  mean
-distortion value which gives  the strong tradeoff between transparency
-and robustness.
\ No newline at end of file