Archiv der Kategorie: Hacking

Spielen mit dem Alpaca: Llava

Ich habe zwei Modelle für Alpaca installiert: Llama 3.1 und Llava. Llava hat eine Bilderkerkennung, die ich ausprobieren musste.

Die Testbilder

Mein erstes Testbild war ein Sonnenuntergang, den ich vor Jahren an einem Feld in Fröndenberg fotografiert habe. Nichts besonderes, sondern einfach ein Bild entstanden am Straßenrand. Motiv gesehen, angehalten, Foto gemacht, wieder eingestiegen und weiter gefahren. Nett anzusehen, aber mehr auch nicht. Kamera war eine Samsung NX300.https://res.craft.do/user/full/a7353577-1054-f012-dcec-3f575fa84ce1/doc/567edddc-55ec-41e8-a06e-0404544aaa9e/22f810c2-7dfa-4e4b-bd2e-ad64ed3be530

Testbild Nummer zwei habe ich bei einem Auftritt von Marduk beim Rock Hard Festival geschossen. Ein intensiver Moment im Konzert, ein geiler Gig. (Und tatsächlich eine meiner Lieblingsbands.) Kamera war eine Nikon D90.https://res.craft.do/user/full/a7353577-1054-f012-dcec-3f575fa84ce1/doc/567edddc-55ec-41e8-a06e-0404544aaa9e/3ab94e65-2b64-4550-8a86-3ed7642e9e17

Testbild Nummer drei ist etwas komplizierter. Es handelt sich um ein verunglücktes Handy-Panorama, aufgenommen mit einem Xiaomi Redmi Note 11. Man kann deutlich die Bildfehler beim Übergang zum letzten Drittel des Bildes (betrachtet von links nach rechts) erkennen. Das Motiv sollte bekannt sein: Schloss Neuschwanstein, gesehen von der Marienbrücke.https://res.craft.do/user/full/a7353577-1054-f012-dcec-3f575fa84ce1/doc/567edddc-55ec-41e8-a06e-0404544aaa9e/ebfc5c33-0cc9-4b91-82e5-d234efa425ad

Hier nun was Llava zu den Bildern sagen konnte:

Bild 1: Sonnenuntergang

„The image shows a vibrant sunset or sunrise, with the sky filled with warm hues of orange and pink. The clouds are layered and there is a reflection of light on them. In the foreground, there appears to be a field or meadow with some crops or plants growing in rows. There’s also a fence visible, likely separating different agricultural areas. The bottom part of the image seems to have a transparent overlay that shows what the landscape looks like during daylight hours.

Bild 2: Marduk

„This image appears to show a musician performing on stage. The individual is holding up their hand in a gesture that could suggest they are addressing the audience or perhaps performing. They seem to be part of a band, as indicated by the presence of other musicians and sound equipment in the background. The atmosphere suggests that this is likely an outdoor concert during either sunset or sunrise, given the sky’s coloration. The image captures the excitement and energy associated with live music events.“

Bild 3: Schloss Neuschwanstein

„The image depicts a scenic landscape featuring a castle perched on a cliff. The castle, with its imposing structure and fortified walls, stands out against the backdrop of a clear sky. The surrounding environment is lush and green, indicative of a healthy and thriving ecosystem, possibly a region known for its natural beauty and conservation efforts.
The image appears to be a photograph taken during daylight hours, as evidenced by the warm sunlight illuminating the scene. There’s a sense of tranquility and timelessness associated with such landscapes, which might suggest that this location is significant historically or culturally.
The foreground shows a path leading towards the castle, inviting viewers to imagine walking along it to explore the ruins or learn about the history of the place. The perspective from a lower angle enhances the grandeur and prominence of the castle in the landscape.
The text „Castle in the cliff“ is visible in the image, which confirms that this is indeed an image of a castle situated on a cliff. This labeling helps to identify the subject matter within the photograph.“

Kleines Fazit

Die Ergebnisse sind gleichzeitig überraschend und erschreckend. Auf der einen Seite sind die Aussagen wesentlich detaillierter und besser als ich es bei einem auf meinem Laptop installierten System für möglich gehalten hätte. Auf der anderen Seite halluziniert das System doch auch sehr stark (die kursiven Teile der Aussagen).

Alpaca, Llama oder was?

Eine Kombination aus einem Heise-Artikel und eines Artikels auf Ubuntu Shell brachten mich in Versuchung, selbst mal mit einem LLM auf dem Rechner herumzuspielen.

Die Installation auf meinem Laptop war denkbar einfach, weil Flatpak bereits installiert war: flatpak install flathub com.jeffser.Alpaca

Installiert wurden dadurch:

  1. [✓] com.jeffser.Alpaca.Locale stable i flathub 29,8 KB / 308,5 KB
  2. [✓] org.freedesktop.Platform.GL.default 24.08 i flathub 146,4 MB / 146,7 MB
  3. [✓] org.freedesktop.Platform.GL.default 24.08extra i flathub 22,7 MB / 146,7 MB
  4. [✓] org.freedesktop.Platform.openh264 2.4.1 i flathub 920,7 KB / 976,5 KB
  5. [✓] org.gnome.Platform.Locale 47 i flathub 24,3 MB / 386,3 MB
  6. [✓] org.gtk.Gtk3theme.Yaru 3.22 i flathub 139,3 KB / 191,5 KB
  7. [✓] org.gnome.Platform 47 i flathub 325,4 MB / 383,8 MB
  8. [✓] com.jeffser.Alpaca stable i flathub 1,7 GB / 1,7 GB

Danach Alpaca starten und Metas Llama 3.1 (in der kleinsten Variante: ca. 4GB) runterladen. Es funktioniert besser, als ich es mir vorgestellt hatte.:

Kurze PDFs (z.B. eine Informatik-Klausur) konnten zuverlässig zusammengefasst werden, bei einem großen PDF fing das System allerdings an zu halluzinieren.

Mal schauen, ob es mit einer größeren Variante von LLama 3.1 besser geht. Aktuell scheue ich mich allerdings vor dem Platzverbrauch von 400+ GB.

Ach ja, loswerden geht auch: flatpak uninstall flathub com.jeffser.Alpaca

Dateimanager-Kidnapping

Wenn ein Programm sich erdreistet, Nautilus als Standard für das Öffnen von Ordnern abzulösen (Hallo, EasyTag!), reicht ein gio mime inode/directory org.gnome.Nautilus.desktop, um den Standard wieder herzustellen.

Mit gio mime inode/directory
lässt sich übrigens nachsehen, welche Programme sich zum Öffnen von Ordnern im System angemeldet haben. Visual Studio Code ist da auch ein möglicher Troublemaker.

Thunderbird: Schrift zu klein im Nachrichtenfenster

Wenn die Augen schlechter werden (oder der Bildschirm immer mehr Pixel auf dem gleichen Raum unterbringt) muss letztendlich die Schriftgröße erhöht werden. Auch Gleitsichtbrillen haben ihre Grenzen.

Den UI-Toom bei Thunderbird findet man ja leicht: Ansicht -> Zoom.
Die Schriftgrößen befinden sich in den Einstellungen.
Trotzdem bleiben einige Emails in der Vorschau und in den Nachrichtenfenstern einfach mit zu kleiner Schrift zurück. Man kann zwar mit Mausrad oder STRG++ zoomen, aber der Zoomfaktor wird nicht dauerhaft gespeichert. Grrrr!

Abhilfe schafft ein Post in diesem Reddit-Thread:

  • Das Addon „Control Button“ in Thunderbird installieren.
  • Damit „about:config“ in Thunderbird öffnen.
  • „font.minimum-size.x-unicode“ auf einen höheren Wert als „0“ setzen. Bei mir hat sich „22“ bewährt.

Ubuntu: IR Webcam bei Tuxedo Laptop dauerhaft ausschalten

Wie ich beim Starten von OBS lustigerweise feststellen durfte, hat mein neuer Tuxedo-Laptop eine Infrarot-Webcam eingebaut. Das ist sicherlich nett, wenn man in völliger Dunkelheit an einer Videokonferenz teilnehmen möchte, stört mich allerdings doch sehr.

Erschwerend kommt hinzu, dass der Schieber, der die normale Webcam abdeckt, die IR Variante nicht abdeckt. Das wäre auch egal, da auch ein Bekleben mit einem dieser kleinen Aufkleber vom Bundesministerium für Familie, Senioren, Frauen und Jugend nicht geholfen hat. Ich habe es extra ausprobiert.

Wie wird man diese Kamera also los?
Gucken wir doch mal nach den Komponenten:

joachim@nargacuga:~|⇒  lsusb
Bus 001 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 001 Device 002: ID 05e3:0610 Genesys Logic, Inc. Hub
Bus 001 Device 004: ID 8087:0032 Intel Corp. AX210 Bluetooth
Bus 001 Device 016: ID 045b:0209 Hitachi, Ltd 
Bus 001 Device 017: ID 045b:0209 Hitachi, Ltd 
Bus 001 Device 018: ID 046d:c077 Logitech, Inc. Mouse
Bus 001 Device 019: ID 046d:0a9c Logitech, Inc. G432 Gaming Headset
Bus 002 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub
Bus 002 Device 002: ID 05e3:0620 Genesys Logic, Inc. GL3523 Hub
Bus 003 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 003 Device 002: ID 2b7e:c858 Kingcome FHD WebCam
Bus 004 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub
Bus 005 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 006 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub
Bus 007 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 008 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub

Treffer: Bus 003 Device 002: ID 2b7e:c858 Kingcome FHD WebCam ist die Webcam. Anscheinend sowohl die IR als auch die normale Webcam. Ich hatte ja gehofft, es wären getrennte Komponenten, aber man kann ja nicht alles haben.

Jetzt zügig eine Datei namens: /etc/udev/rules.d/80-kingcome-fhd-webcam.rules erstellt mit folgendem Inhalt:

# blacklist Kingcome FHD WebCam
SUBSYSTEM=="usb", ATTRS{idVendor}=="2b7e", ATTRS{idProduct}=="c858", ATTR{authorized}="0"

Einen Reboot später ist die Webcam deaktiviert.