Poor Man’s SQL Data Generation

Data generation is at best done with tools. Since Visual Studio Data Tools have dropped support there is for instance red gate’s DBA bundle. My current license does not work with Microsoft SQL Server 2014. I need a quick solution to reproduce a scenario with *some more data* in just one table. Which means I already have some data in the table. So I wrote the following TSQL script to help me out. Just clone the Table schema, define the upper limit and multiply the data by running it.

Datenbank Autonomie

Oder warum sollten sich mehrere Anwendungen nicht dieselbe Datenbank teilen? http://www.flickr.com/photos/breville/10731809645/sizes/l/ Viele Köche verderben den Brei: Diseconomy of Scale Eine gemeinsame Datenbank (geteilt zwischen Anwendungen und/oder Teams) sorgt für unterschiedliche Interessen und erhöhten Absprachebedarf, damit es nicht zu einer Art Wildwuchs kommt. Wenn keine klaren Schnittstellen definiert sind sinkt die Produktivität aufgrund des erhöhten Kommunikationsaufwandes. Das gilt in Firmen unter Abteilungen und Mitarbeitern, genauso wie für Software-Projekt-Teams als auch für Software selbst. Bei wenigen Parteien ist die Komplexität oft noch nicht zu sehen. Desto mehr Parteien es werden, desto komplexer wird es jedoch. Wikipedia: http://en.wikipedia.org/wiki/Diseconomy_of_scale “Diseconomies of scale are the forces that cause larger firms and governments to produce goods and services at increased per-unit costs” Zu Deutsch: “desto mehr Parteien an einer Sache beteiligt sind, desto höher wird der Kommunikationsaufwand.“ Dazu gibt es auch eine mathematische Formel: Workers Communication Channels 1 0 2 1 3 3 4 6 5 10 n Zur Thematik in der Software-Entwicklung findet man folgende Definition: http://www.softwaremetrics.com/se.htm “In all software projects there are some basic principles which cause diseconomies of scale. That is: Communication becomes difficult as project becomes larger. Multiple logical paths grow in a nonlinear manner as size increases. Interrelationships of functions grow geometrically as project becomes large. Zu Deutsch: “In allen Software-Projekten gibt es einfache Gründe, die zur negativen Produktivität führen. Diese sind: Kommunikation wird schwieriger, wenn das Projekt größer wird. Wenn ein Projekt größer wird, wachsen die Interessen mit un-linearem Faktor auseinander. Abhängigkeiten von Funktionalitäten steigen im Quadrat wenn das Projekt größer wird. Dazu findet man beim „Massachusetts Institute of Technology“ (MIT) die folgende These um die Komplexität einzugrenzen: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.350&rep=rep1&type=pdf „… a manager could choose to divide the project into several smaller projects in order to increase the productivity.“ Zu Deutsch: “Ein Manager kann sich dazu entscheiden das Projekt in kleinere (unabhängige) Projekte zu teilen, um die Produktivität zu erhöhen.” IBM schreibt dazu in einem Whitepaper zu Software Economies wie die Ressourcen in einem Software-Projekt zu berechnen sindftp://public.dhe.ibm.com/common/ssi/ecm/en/raw14148usen/RAW14148USEN.PDF: Resources = (Complexity) * (Process) * (Teamwork) * (Tools) Wobei je 10% weniger beim Vorgänger mehr als 10% mehr Produktivität beim Nachfolger erzeugen. In diesem Dokument wird auch sehr gut Argumentiert, warum ein Wasserfall-Model (Erst alles Planen und dann erst Bauen, gegenüber einem agilen Ansatz(Kleine Iterationen von Planung und Ausführung zur besseren Kurskorrektur getrieben durch sich mit der Zeit ändernde Anforderungen) im Nachteil ist. Abstraktion und Muster/Patterns Die Abstraktion dient in der Software-Entwicklung zur Steigerung der Robustheit gegenüber Änderungen. Seit (spätestens) 21.10.1994, dem Erscheinungsdatum von „Design-Patterns“ der „Gang of four“ (http://en.wikipedia.org/wiki/Design_Patterns), sollte bekannt sein, dass Abstraktion und lose Koppelung höchste Güter er Software-Entwicklung sind. Als Beispiel dafür der Mediator (http://www.cs.ucsb.edu/~mikec/cs48/misc/Design_Class_Diagrams.htm): Eine Komponente, die zwischen den Anderen steht, um die Komplexität und das Wissen übereinander zu verringern. Schon in einer einzelnen Anwendung gehört es zu den „best practices“ den Datenzugriff zu abstrahieren(http://martinfowler.com/eaaCatalog/repository.html) um Änderungen an einer zentralen Stelle zu verwalten und nicht über die gesamte Anwendung ausufern zu lassen. Direct Data Access vs. Services Der direkte Zugriff auf eine Datenbank zieht bei einer Änderung des Schemas, also der Datenbank-Strukturen, z.B. hervorgerufen, durch Perfomance-Anforderungen, Geschäftsprozessänderungen oder der Migration auf eine neue oder andere Datenbankversion, Entwicklungsaufwände in JEDER direkt darauf zugreifenden Anwendung nach sich. Dies kann durch Abstraktion des Datenzugriffs undAutonomie der der Datenbank verhindert werden. Wikipedia schreibt dazu (http://en.wikipedia.org/wiki/Database_abstraction_layer): „Database abstraction layers reduce the amount of work by providing a consistent API to the developer and hide the database specifics behind this interface as much as possible“ Zu Deutsch: “… Abstraktion reduziert die Aufwände durch einen klar definierte Schnittstelle für den Entwickler und versteckt/schützt die Implementierungsdetails so gut wie möglich” In einem der bekanntesten Portalen der Software-Entwicklung, in dem alle Programmiersprachen diskutiert, und die Antworten allen bewertet werden können findet man den folgenden Eintrag:http://stackoverflow.com/questions/1530551/direct-acces-database-vs-web-service “Direct database access couples you tightly to the schema. Any changes on either end affects the other.” Zu Deutsch: “Jede Änderung auf einer Seite hat Auswirkungen auf alle anderen” Und… „ I would try to go the direct database access route, unless several applications need to share the data...“ Zu Deutsch: “Ich würde den direkten Datenbankzugriff wählen, es sei denn, mehrere Anwendungen sollen sich die Daten teilen…“ Zu „Entwicklungen“, die über die Zeit eine Datenbank mach und die Vorteile eines zentralisierten Datenzugriffs (http://www.agiledata.org/essays/implementationStrategies.html): “…a single encapsulation layer … reduce the effort it takes to evolve your database schemas” Zu Deutsch: “… ein Einzige Datenzugriffsschicht reduziert die Aufwände die entstehen, wenn eine Datenbank sich weiterentwickelt/wächst” Globaler Datenzugriff: Die neuen globalen Variablen Der Einsatz von globalen Variablen ist seit Jahren in der Software-Entwicklung verpönt (http://c2.com/cgi/wiki?GlobalVariablesAreBad). Das liegt daran, dass Code, der mit globalen Variablen arbeitet folgende Eigenschaften mit sich bringt: Er verlässt sich darauf, dass eine Variable einen bestimmten Wert enthält. Er lässt sich also nur durch aufsetzen diese Vorbedingungen (Infrastruktur) testen. ABER: Jeder kann den Wert ändern, da ja keiner die Zuständigkeit besitzt (z.B. eine Funktionalität/Service) zu kontrollieren, ob dies zum aktuellen Zeitpunkt auch korrekt ist. Dadurch: Entsteht ein System von Unvorhersehbarkeiten Eine Datenbank mit „Zugriff für ALLE“ verhält sich genauso. Wie eine globale Variable oder eine Gruppe Kinder zu einem Süßigkeiten-Glas. Das gilt übrigens technologieübergreifend - auch in JAVA und in allen anderen Programmiersprachen (http://stackoverflow.com/questions/2867862/service-bus-vs-direct-database-access). Es handelt sich dabei um ein Architektur- bzw. Vorgehens-Problem. Daten als Dienstleistung Wenn man sich fragt, was eine Anwendung will, würde man wohl eher sagen, dass sie mit den Daten arbeiten will (z.B. einen Geschäftsprozess abbilden), als, dass sie auf die Datenbank zugreifen will. Das würde sonst schließlich bedeuten, dass die Software zu Selbstzweck oder der Technologie willens existiert. Es ist wie beim Verschicken eines Briefes. Man muss nicht wissen, ob der Briefträger mit dem Fahrrad kommt, zu Fuß unterwegs ist oder mit dem Postauto ausliefert. Es zählt die Dienstleistung! Darüber schreibt Wikipedia: http://en.wikipedia.org/wiki/Data_as_a_service “As the number of bundled software/data packages proliferated and required interaction among one another, another layer of interface was required.” Zu Deutsch: “Wenn die Zahl der der Anwendungen/Daten wächst ist eine weitere (Abstraktions-) Schicht nötig” Service-orientierung Der Dienstleistungsgedanke ist nicht neu – vor allem nicht in der Software-Entwicklung (siehe Wikipedia http://de.wikipedia.org/wiki/Serviceorientierte_Architektur). Dabei geht uns nicht um „das große Enterprise“, sondern darum, die IT aus der Perspektive der Geschäftsprozesse und Anforderungen zu sehen. Dabei gilt (für uns) Think big, start small - Nach vorne sehen und sich keine Steine in den Weg von morgen zu legen UND die Aufwände zu jedem Zeitpunkt durch Kontrolle und Steuerung der Komplexität realistisch zu halten und somit agil reagieren zu können. Mit diesen Gedanken kommt auch ein anderer Blick auf Daten (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.8639&rep=rep1&type=pdf): Datenzugriff muss koordiniert und kontrolliert werden (Security und Änderungsresistenz) Daten gehören einem Dienst (so wird Kontrolle sichergestellt) Direkter Datenzugriff ermöglicht üblicherweise ein CRUD (Create, Read, Update & Delete – Erstellen, Lesen, Aktualisieren und Löschen) wohingegen ein Dienst die Funktionalität bereitstellt (z.B. „Bestellen“ oder „UmfrageAuswerten“). Änderungen am Schema und Skalierung Neben der Tatsache, das sich Geschäftsfelder erweitern und/oder ändern können und sich dadurch Änderungen an den Strukturen in der Datenbank ergeben können, bedeutet es (gerade) für eine (Web-)Plattform, dass wenn sie Erfolg, die Lasten steigen und andere Konzepte nötig werden um die Daten zu speichern und zu lesen. Ein zentralisierter Datenzugriff reduziert die Aufwände in den Anwendungen und ermöglicht Skalierung, Sharding(http://en.wikipedia.org/wiki/Shard_(database_architecture)) und Integrations-Konzepte (http://en.wikipedia.org/wiki/Data_Integration).

MSSQL Log Size

I have a test environment for an application. From time to time I take the database to my local development environment. A smaller database log means less network latency and a faster local reproduction scenario. After a while of pumping data into a MSSQL Server instance the log can grow a bit – even if there is a lot of free space left. Shrinking is NOT GOOD at all, but I don’t have 50gigs of space left to pull up that database on my local machine. So I will shrink to gain space and reorganize the indices to fight fragmentation.   DECLARE @DbName VARCHAR(128);  SET @DbName = DB_NAME();  DECLARE @LogName VARCHAR(128);  SET @LogName = @DbName + '_Log';   DECLARE @AlterSql NVARCHAR(512);  SET @AlterSql = 'ALTER DATABASE ' + @DbName + ' SET RECOVERY SIMPLE;';   EXEC sys.sp_executesql @AlterSql;   DBCC SHRINKFILE(@LogName, 1, TRUNCATEONLY)  GO   EXEC sp_msforeachtable 'ALTER INDEX ALL ON ? REORGANIZE;';  GO The result is notable and should be easier transmitted to my local development machine’ Another option is to set the recovery model to simple. But that cuts a few features: Log shipping AlwaysOn or Database mirroring Media recovery without data loss Point-in-time restores   SELECT name, recovery_model_desc FROM sys.databases WHERE name = 'mydatabasename'; GO USE master ; ALTER DATABASE [mydatabasename] SET RECOVERY SIMPLE;

MSSQL Backup Size

I have a test environment for an application. From time to time I take the database to my local development environment. A smaller backup means less network latency and a faster local reproduction scenario. Since 2008 Microsoft SQL Server comes with a feature called backup compression. I gave it a try and so I ran the two following statements in competition:   BACKUP DATABASE [XXX]   TO DISK = N'D:\DATA\SQL\BACKUP\Uncompressed.bak'   WITH     COPY_ONLY,     NOFORMAT,     NOINIT,     NAME = N'Full Database Backup',     SKIP,     NOREWIND,     NOUNLOAD,     STATS = 10  GO vs.   BACKUP DATABASE [XXX]   TO DISK = N'D:\DATA\SQL\BACKUP\Compressed.bak'   WITH     COPY_ONLY,     FORMAT,     INIT,     NAME = N'Full Database Backup',     SKIP,     NOREWIND,     NOUNLOAD,     COMPRESSION,      STATS = 10  GO Here are the results:

Executing CREATE statements from within Visual Studio 2005

If you try to run a CREATE statement in a query (right click on a database in the Server Explorer) you receive this message. So i wrote a small utility which will do the job for me. using System; using System.IO; using System.Data.SqlClient; using System.Collections.Generic; using System.Text; using System.Windows.Forms;   namespace MdfExec {     class Program     {         static void Main(string[] args)         {             string _cnStr;               if (args.Length == 2)             {                 _cnStr =                     "data source=.\\SQLEXPRESS;Integrated Security=SSPI;" +                     "AttachDBFilename=" + args[1] + ";User Instance=true;";             }             else             {                 OpenFileDialog fd = new OpenFileDialog();                   fd.AddExtension = true;                 fd.DefaultExt = ".mdf";                 fd.ShowDialog();                   _cnStr =                     "data source=.\\SQLEXPRESS;Integrated Security=SSPI;" +                     "AttachDBFilename=" + fd.FileName + ";User Instance=true;";             }               using (SqlConnection _cn = new SqlConnection(_cnStr))             {             using(SqlCommand _cmd = _cn.CreateCommand())                    {                     using (StreamReader fs = File.OpenText(args[0]))                     {                         _cmd.CommandText = fs.ReadToEnd();                         _cmd.Connection.Open();                         _cmd.ExecuteNonQuery();                     }                    }             }         }     } }   You can now right click on a *.sql file choose "open with ..." and select MdfExec.exe to execute the SQL statement. Since there is no second parameter (but needed to define to which database to connect) a OpenFileDialog will prompt:   Happy coding

A week full of community

Monday: I met Andreas Hoffmann (2nd UG Lead of the VfL Usergrop) and Peter Nowak (Head of FIAEon.net, a community for .NET related vocational education) at Starbucks in Düsseldorf. Tuesday: Benjamin Mitchell notified me that one of my sessions was voted by the british community and I'll have a session at the Developer Developer Developer Day. Wednesday: I'm in contact with the Student Partners in Wuppertal now (better said Anselm Haselhoff because Marcel Wiktorin is moving and has not replied yet :-)). Thursday: Usergroup meeting in Düsseldorf: Sebastian Weber (Developer Evengelist at Microsoft Germany and member of the VfL-UG) answered all our members questions about SQL Server 2005 and Tuan Nguyen (Lead of annos.de and VfL-Member) talked about the Annos project. Great, thanks guys. Friday: I updated the VfL-Site and fixed a few bugs.

SQL Sever 2005 (YUKON) Review in short, #2

Ok, here is another one: 1. I add a login to my database server:     EXEC sp_addlogin @Username, @Password, @Database; This works fine! 2. I add a user, to a database by using the stored prcedure sp_adduser:     Use [MyDB];    EXEC sp_adduser @Username; This also works fine! 3. I want to remove the user from the database. Therefor i use the stored prcedure sp_dropuser:     EXEC sp_dropuser @Username; This removes the user BUT what you'll see while digging deeper is that sp_adduser has created an SCHEMA and sp_dropuser don't cares a s%#t about that - it's still there after calling sp_dropuser :-(